From 52beaeb452af124551dbc8bdb29e2cccfce4d2b7 Mon Sep 17 00:00:00 2001
From: Jukka Ojanen <jukka.ojanen@linkotec.net>
Date: Wed, 16 Mar 2016 11:50:22 +0200
Subject: Clean and optimize ARM Neon static transform, 4-5% faster

---
 src/neon_static_f.s | 1681 +++++++++++++++++++++++++--------------------------
 src/neon_static_i.s | 1680 +++++++++++++++++++++++++-------------------------
 2 files changed, 1624 insertions(+), 1737 deletions(-)

diff --git a/src/neon_static_f.s b/src/neon_static_f.s
index e1e9a4a..452d8d4 100644
--- a/src/neon_static_f.s
+++ b/src/neon_static_f.s
@@ -1,663 +1,614 @@
 /*
- 
- This file is part of FFTS -- The Fastest Fourier Transform in the South
-  
- Copyright (c) 2012, Anthony M. Blake <amb@anthonix.com>
- Copyright (c) 2012, The University of Waikato 
- 
- All rights reserved.
-
- Redistribution and use in source and binary forms, with or without
- modification, are permitted provided that the following conditions are met:
- 	* Redistributions of source code must retain the above copyright
- 		notice, this list of conditions and the following disclaimer.
- 	* Redistributions in binary form must reproduce the above copyright
- 		notice, this list of conditions and the following disclaimer in the
- 		documentation and/or other materials provided with the distribution.
- 	* Neither the name of the organization nor the
-	  names of its contributors may be used to endorse or promote products
- 		derived from this software without specific prior written permission.
-
- THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND
- ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED
- WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE
- DISCLAIMED. IN NO EVENT SHALL ANTHONY M. BLAKE BE LIABLE FOR ANY
- DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES
- (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES;
- LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND
- ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
- (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS
- SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+
+This file is part of FFTS -- The Fastest Fourier Transform in the South
+
+Copyright (c) 2016, Jukka Ojanen <jukka.ojanen@kolumbus.fi>
+Copyright (c) 2012, Anthony M. Blake <amb@anthonix.com>
+Copyright (c) 2012, The University of Waikato 
+
+All rights reserved.
+
+Redistribution and use in source and binary forms, with or without
+modification, are permitted provided that the following conditions are met:
+* Redistributions of source code must retain the above copyright
+notice, this list of conditions and the following disclaimer.
+* Redistributions in binary form must reproduce the above copyright
+notice, this list of conditions and the following disclaimer in the
+documentation and/or other materials provided with the distribution.
+* Neither the name of the organization nor the
+names of its contributors may be used to endorse or promote products
+derived from this software without specific prior written permission.
+
+THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND
+ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED
+WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE
+DISCLAIMED. IN NO EVENT SHALL ANTHONY M. BLAKE BE LIABLE FOR ANY
+DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES
+(INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES;
+LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND
+ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
+(INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS
+SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 
 */
-	.fpu	neon
+  .fpu  neon
 
-	.align 4
+  .align 4
 #ifdef __APPLE__
-	.globl	_neon_static_e_f
+  .globl    _neon_static_e_f
 _neon_static_e_f:
 #else
-	.globl	neon_static_e_f
+  .globl    neon_static_e_f
 neon_static_e_f:
 #endif
-  push	{r4, r5, r6, r7, r8, r9, r10, r11, lr}
-  vstmdb	sp!, {d8-d15}
-  ldr lr, [r0, #40]  @ this is p->N
-  add	r3, r1, #0	
-  add	r7, r1, lr 
-  add	r5, r7, lr 
-  add	r10, r5, lr
-  add	r4, r10, lr	
-  add	r8, r4, lr
-  add	r6, r8, lr
-  add	r9, r6, lr
-  ldr	r12, [r0]
-  add	r1, r0, #0
-  add	r0, r2, #0	
-  ldr	r2, [r1, #16]   @ this is p->ee_ws
-  ldr	r11, [r1, #28]  @ this is p->i0	
-	
-	vld1.32	{d16, d17}, [r2, :128]
-_neon_ee_loop:
-	vld2.32 {q15}, [r10, :128]!
-	vld2.32 {q13}, [r8, :128]!
-	vld2.32 {q14}, [r7, :128]!
-	vld2.32 {q9},  [r4, :128]!
-	vld2.32 {q10}, [r3, :128]!
-	vld2.32 {q11}, [r6, :128]!
-	vld2.32 {q12}, [r5, :128]!
-	vsub.f32	q1, q14, q13
-	vld2.32 {q0}, [r9, :128]!
-	subs	r11, r11, #1
-	vsub.f32	q2, q0, q15
-	vadd.f32	q0, q0, q15
-	vmul.f32	d10, d2, d17
-	vmul.f32	d11, d3, d16
-	vmul.f32	d12, d3, d17
-	vmul.f32	d6, d4, d17  
-	vmul.f32	d7, d5, d16  
-	vmul.f32	d8, d4, d16  
-	vmul.f32	d9, d5, d17  
-	vmul.f32	d13, d2, d16
-	vsub.f32	d7, d7, d6
-	vadd.f32	d11, d11, d10
-	vsub.f32	q1, q12, q11
-	vsub.f32	q2, q10, q9
-	vadd.f32	d6, d9, d8
-	vadd.f32	q4, q14, q13
-	vadd.f32	q11, q12, q11
-	vadd.f32	q12, q10, q9
-	vsub.f32	d10, d13, d12
-	vsub.f32	q7, q4, q0
-	vsub.f32	q9, q12, q11
-	vsub.f32	q13, q5, q3
-	vsub.f32	d29, d5, d2  @
-	vadd.f32	q5, q5, q3
-	vadd.f32	q10, q4, q0
-	vadd.f32	q11, q12, q11
-	vadd.f32	d31, d5, d2  @
-	vadd.f32	d28, d4, d3  @
-	vsub.f32	d30, d4, d3  @
-	vsub.f32	d5, d19, d14  @
-	vsub.f32	d7, d31, d26  @
-	vadd.f32	q1, q14, q5
-	vadd.f32	q0, q11, q10
-	vadd.f32	d6, d30, d27  @
-	vadd.f32	d4, d18, d15  @
-	vadd.f32	d13, d19, d14  @
-	vsub.f32	d12, d18, d15  @
-	vadd.f32	d15, d31, d26  @
-	ldr r2, [r12], #4
-	vtrn.32	q1, q3
-	ldr lr, [r12], #4
-	vtrn.32	q0, q2
-	add r2, r0, r2, lsl #2
-	vsub.f32	q4, q11, q10
-	add lr, r0, lr, lsl #2
-	vsub.f32	q5, q14, q5
-	vsub.f32	d14, d30, d27 @
-	vst2.32 {q0,q1}, [r2, :128]!
-	vst2.32 {q2,q3}, [lr, :128]!
-	vtrn.32	q4, q6
-	vtrn.32	q5, q7
-	vst2.32 {q4,q5}, [r2, :128]!
-	vst2.32 {q6,q7}, [lr, :128]!
-	bne _neon_ee_loop
-
-	ldr	r11, [r1, #12]
-	vld2.32 {q9}, [r5, :128]! @tag2
-	vld2.32 {q13}, [r3, :128]! @tag0
-	vld2.32 {q12}, [r4, :128]! @tag1
-	vld2.32 {q0}, [r7, :128]! @tag4
-	vsub.f32	q11, q13, q12
-	vld2.32 {q8}, [r6, :128]! @tag3
-	vadd.f32	q12, q13, q12
-	vsub.f32	q10, q9, q8
-	vadd.f32	q8, q9, q8
-	vadd.f32	q9, q12, q8
-	vsub.f32	d9, d23, d20  @
-	vadd.f32	d11, d23, d20  @
-	vsub.f32	q8, q12, q8
-	vadd.f32	d8, d22, d21  @
-	vsub.f32	d10, d22, d21  @
-	ldr r2, [r12], #4
-	vld1.32	{d20, d21}, [r11, :128]
-	ldr lr, [r12], #4
-	vtrn.32	q9, q4
-	add r2, r0, r2, lsl #2
-	vtrn.32	q8, q5
-	add lr, r0, lr, lsl #2
-	vswp d9,d10
-	vst1.32 {d8,d9,d10,d11}, [lr, :128]!
-	vld2.32 {q13}, [r10, :128]! @tag7
-	vld2.32 {q15}, [r9, :128]! @tag6
-	vld2.32 {q11}, [r8, :128]! @tag5
-	vsub.f32	q14, q15, q13
-	vsub.f32	q12, q0, q11
-	vadd.f32	q11, q0, q11
-	vadd.f32	q13, q15, q13
-	vsub.f32	d13, d29, d24  @
-	vadd.f32	q15, q13, q11
-	vadd.f32	d12, d28, d25  @
-	vadd.f32	d15, d29, d24  @
-	vsub.f32	d14, d28, d25  @
-	vtrn.32	q15, q6
-	vsub.f32	q15, q13, q11
-	vtrn.32	q15, q7
-	vswp d13, d14
-	vst1.32 {d12,d13,d14,d15}, [lr, :128]!
-	vtrn.32	q13, q14
-	vtrn.32	q11, q12
-	vmul.f32	d24, d26, d21
-	vmul.f32	d28, d27, d20
-	vmul.f32	d25, d26, d20
-	vmul.f32	d26, d27, d21
-	vmul.f32	d27, d22, d21
-	vmul.f32	d30, d23, d20
-	vmul.f32	d29, d23, d21
-	vmul.f32	d22, d22, d20
-	vsub.f32	d21, d28, d24
-	vadd.f32	d20, d26, d25
-	vadd.f32	d25, d30, d27
-	vsub.f32	d24, d22, d29
-	vadd.f32	q11, q12, q10
-	vsub.f32	q10, q12, q10
-	vadd.f32	q0, q9, q11
-	vsub.f32	q2, q9, q11
-	vsub.f32	d3, d17, d20  @
-	vadd.f32	d7, d17, d20  @
-	vadd.f32	d2, d16, d21  @
-	vsub.f32	d6, d16, d21  @
-	vswp d1, d2
-	vswp d5, d6
-	vstmia r2!, {q0-q3}
-
-  add	r2, r7, #0	
-  add	r7, r9, #0	
-  add	r9, r2, #0	
-  add	r2, r8, #0	
-  add	r8, r10, #0	
-  add	r10, r2, #0	
-  ldr	r11, [r1, #32]  @ this is p->i1	
-	cmp r11, #0
-	beq _neon_oo_loop_exit
-_neon_oo_loop:
-	vld2.32 {q8}, [r6, :128]!
-	vld2.32 {q9}, [r5, :128]!
-	vld2.32 {q10}, [r4, :128]!
-	vld2.32 {q13}, [r3, :128]!
-	vadd.f32	q11, q9, q8
-	vsub.f32	q8, q9, q8
-	vsub.f32	q9, q13, q10
-	vadd.f32	q12, q13, q10
-	subs	r11, r11, #1
-	vld2.32 {q10}, [r7, :128]!
-	vld2.32 {q13}, [r9, :128]!
-	vsub.f32	q2, q12, q11
-	vadd.f32	d7, d19, d16  @
-	vsub.f32	d3, d19, d16  @
-	vsub.f32	d6, d18, d17  @
-	vadd.f32	d2, d18, d17  @
-	vld2.32 {q9}, [r8, :128]!
-	vld2.32 {q8}, [r10, :128]!
-	vadd.f32	q0, q12, q11
-	vadd.f32	q11, q13, q8
-	vadd.f32	q12, q10, q9
-	vsub.f32	q8, q13, q8
-	vsub.f32	q9, q10, q9
-	vsub.f32	q6, q12, q11
-	vadd.f32	q4, q12, q11
-	vtrn.32	q0, q2
-	ldr r2, [r12], #4
-	vadd.f32	d15, d19, d16  @
-	ldr lr, [r12], #4
-	vsub.f32	d11, d19, d16  @
-	vsub.f32	d14, d18, d17  @
-	vadd.f32	d10, d18, d17  @
-	add r2, r0, r2, lsl #2
-	vtrn.32	q1, q3
-	add lr, r0, lr, lsl #2
-	vst2.32 {q0,q1}, [r2, :128]!
-	vst2.32 {q2,q3}, [lr, :128]!
-	vtrn.32	q4, q6
-	vtrn.32	q5, q7
-	vst2.32 {q4,q5}, [r2, :128]!
-	vst2.32 {q6,q7}, [lr, :128]!
-	bne _neon_oo_loop
-_neon_oo_loop_exit:
-
-
-  add	r2, r3, #0
-  add	r3, r7, #0
-  add	r7, r2, #0
-  add	r2, r4, #0
-  add	r4, r8, #0
-  add	r8, r2, #0
-  add	r2, r5, #0
-  add	r5, r9, #0
-  add	r9, r2, #0
-  add	r2, r6, #0
-  add	r6, r10, #0
-  add	r10, r2, #0
-  add	r2, r9, #0	
-  add	r9, r10, #0	
-  add	r10, r2, #0	
-  ldr	r2, [r1, #16]
-  ldr	r11, [r1, #32]  @ this is p->i1	
-	cmp r11, #0
-	beq _neon_ee_loop2_exit
-
-	vld1.32	{d16, d17}, [r2, :128]
-_neon_ee_loop2:
-	vld2.32 {q15}, [r10, :128]!
-	vld2.32 {q13}, [r8, :128]!
-	vld2.32 {q14}, [r7, :128]!
-	vld2.32 {q9},  [r4, :128]!
-	vld2.32 {q10}, [r3, :128]!
-	vld2.32 {q11}, [r6, :128]!
-	vld2.32 {q12}, [r5, :128]!
-	vsub.f32	q1, q14, q13
-	vld2.32 {q0}, [r9, :128]!
-	subs	r11, r11, #1
-	vsub.f32	q2, q0, q15
-	vadd.f32	q0, q0, q15
-	vmul.f32	d10, d2, d17
-	vmul.f32	d11, d3, d16
-	vmul.f32	d12, d3, d17
-	vmul.f32	d6, d4, d17  
-	vmul.f32	d7, d5, d16  
-	vmul.f32	d8, d4, d16  
-	vmul.f32	d9, d5, d17  
-	vmul.f32	d13, d2, d16
-	vsub.f32	d7, d7, d6
-	vadd.f32	d11, d11, d10
-	vsub.f32	q1, q12, q11
-	vsub.f32	q2, q10, q9
-	vadd.f32	d6, d9, d8
-	vadd.f32	q4, q14, q13
-	vadd.f32	q11, q12, q11
-	vadd.f32	q12, q10, q9
-	vsub.f32	d10, d13, d12
-	vsub.f32	q7, q4, q0
-	vsub.f32	q9, q12, q11
-	vsub.f32	q13, q5, q3
-	vsub.f32	d29, d5, d2  @
-	vadd.f32	q5, q5, q3
-	vadd.f32	q10, q4, q0
-	vadd.f32	q11, q12, q11
-	vadd.f32	d31, d5, d2  @
-	vadd.f32	d28, d4, d3  @
-	vsub.f32	d30, d4, d3  @
-	vsub.f32	d5, d19, d14  @
-	vsub.f32	d7, d31, d26  @
-	vadd.f32	q1, q14, q5
-	vadd.f32	q0, q11, q10
-	vadd.f32	d6, d30, d27  @
-	vadd.f32	d4, d18, d15  @
-	vadd.f32	d13, d19, d14  @
-	vsub.f32	d12, d18, d15  @
-	vadd.f32	d15, d31, d26  @
-	ldr r2, [r12], #4
-	vtrn.32	q1, q3
-	ldr lr, [r12], #4
-	vtrn.32	q0, q2
-	add r2, r0, r2, lsl #2
-	vsub.f32	q4, q11, q10
-	add lr, r0, lr, lsl #2
-	vsub.f32	q5, q14, q5
-	vsub.f32	d14, d30, d27 @
-	vst2.32 {q0,q1}, [r2, :128]!
-	vst2.32 {q2,q3}, [lr, :128]!
-	vtrn.32	q4, q6
-	vtrn.32	q5, q7
-	vst2.32 {q4,q5}, [r2, :128]!
-	vst2.32 {q6,q7}, [lr, :128]!
-	bne _neon_ee_loop2
-_neon_ee_loop2_exit:
+  push      {r4-r12, lr}
+  vpush     {q4-q7}
+
+  ldr       lr,  [r0, #40]  @ p->N
+  ldr       r12, [r0     ]  @ p->offsets
+  ldr       r3,  [r0, #16]  @ p->ee_ws
+
+  add       r7,  r1,   lr
+  add       r5,  r1,   lr, lsl #1
+  add       r4,  r1,   lr, lsl #2
+  add       r10, r7,   lr, lsl #1
+  add       r8,  r7,   lr, lsl #2
+
+  ldr       r11, [r0, #28]  @ p->i0
 
-	vldmia	sp!, {d8-d15}
-	pop	{r4, r5, r6, r7, r8, r9, r10, r11, pc}
+  add       r6,  r4,   lr, lsl #1
+  add       r9,  r10,  lr, lsl #2
 
+  vld1.32   {d16, d17}, [r3, :128]
+_neon_ee_loop:
+  vld2.32   {q15}, [r10, :128]!
+  vld2.32   {q13}, [r8,  :128]!
+  vld2.32   {q14}, [r7,  :128]!
+  vld2.32   {q9},  [r4,  :128]!
+  vld2.32   {q10}, [r1,  :128]!
+  vld2.32   {q11}, [r6,  :128]!
+  vld2.32   {q12}, [r5,  :128]!
+  vsub.f32  q1,  q14, q13
+  vld2.32   {q0},  [r9,  :128]!
+  subs      r11, r11, #1
+  vsub.f32  q2,  q0,  q15
+  vadd.f32  q0,  q0,  q15
+  vmul.f32  d10, d2,  d17
+  vmul.f32  d11, d3,  d16
+  vmul.f32  d12, d3,  d17
+  vmul.f32  d6,  d4,  d17
+  vmul.f32  d7,  d5,  d16
+  vmul.f32  d8,  d4,  d16
+  vmul.f32  d9,  d5,  d17
+  vmul.f32  d13, d2,  d16
+  vsub.f32  d7,  d7,  d6
+  vadd.f32  d11, d11, d10
+  vsub.f32  q1,  q12, q11
+  vsub.f32  q2,  q10, q9
+  vadd.f32  d6,  d9,  d8
+  vadd.f32  q4,  q14, q13
+  vadd.f32  q11, q12, q11
+  vadd.f32  q12, q10, q9
+  vsub.f32  d10, d13, d12
+  vsub.f32  q7,  q4,  q0
+  vsub.f32  q9,  q12, q11
+  vsub.f32  q13, q5,  q3
+  vsub.f32  d29, d5,  d2
+  vadd.f32  q5,  q5,  q3
+  vadd.f32  q10, q4,  q0
+  vadd.f32  q11, q12, q11
+  vadd.f32  d31, d5,  d2
+  vadd.f32  d28, d4,  d3
+  vsub.f32  d30, d4,  d3
+  vsub.f32  d5,  d19, d14
+  vsub.f32  d7,  d31, d26
+  vadd.f32  q1,  q14, q5
+  vadd.f32  q0,  q11, q10
+  vadd.f32  d6,  d30, d27
+  vadd.f32  d4,  d18, d15
+  vadd.f32  d13, d19, d14
+  vsub.f32  d12, d18, d15
+  vadd.f32  d15, d31, d26
+  ldr       r3, [r12], #4
+  vtrn.32   q1,  q3
+  ldr       lr, [r12], #4
+  vtrn.32   q0,  q2
+  add       r3, r2, r3, lsl #2
+  vsub.f32  q4,  q11, q10
+  add       lr, r2, lr, lsl #2
+  vsub.f32  q5,  q14, q5
+  vsub.f32  d14, d30, d27
+  vst2.32   {q0, q1}, [r3, :128]!
+  vst2.32   {q2, q3}, [lr, :128]!
+  vtrn.32   q4,  q6
+  vtrn.32   q5,  q7
+  vst2.32   {q4, q5}, [r3, :128]!
+  vst2.32   {q6, q7}, [lr, :128]!
+  bne       _neon_ee_loop
+
+  ldr       r11,   [r0, #12]
+  vld2.32   {q9},  [r5, :128]!
+  vld2.32   {q13}, [r1, :128]!
+  vld2.32   {q12}, [r4, :128]!
+  vld2.32   {q0},  [r7, :128]!
+  vsub.f32  q11, q13, q12
+  vld2.32   {q8},  [r6, :128]!
+  vadd.f32  q12, q13, q12
+  vsub.f32  q10, q9,  q8
+  vadd.f32  q8,  q9,  q8
+  vadd.f32  q9,  q12, q8
+  vsub.f32  d9,  d23, d20
+  vadd.f32  d11, d23, d20
+  vsub.f32  q8,  q12, q8
+  vadd.f32  d8,  d22, d21
+  vsub.f32  d10, d22, d21
+  ldr       r3, [r12], #4
+  vld1.32   {d20, d21}, [r11, :128]
+  ldr       lr, [r12], #4
+  vtrn.32   q9,  q4
+  add       r3, r2, r3, lsl #2
+  vtrn.32   q8,  q5
+  add       lr, r2, lr, lsl #2
+  vswp      d9,  d10
+  vst1.32   {d8,d9,d10,d11}, [lr, :128]!
+  vld2.32   {q13}, [r10, :128]!
+  vld2.32   {q15}, [r9,  :128]!
+  vld2.32   {q11}, [r8,  :128]!
+  vsub.f32  q14, q15, q13
+  vsub.f32  q12, q0,  q11
+  vadd.f32  q11, q0,  q11
+  vadd.f32  q13, q15, q13
+  vsub.f32  d13, d29, d24
+  vadd.f32  q15, q13, q11
+  vadd.f32  d12, d28, d25
+  vadd.f32  d15, d29, d24
+  vsub.f32  d14, d28, d25
+  vtrn.32   q15, q6
+  vsub.f32  q15, q13, q11
+  vtrn.32   q15, q7
+  vswp d13, d14
+  vst1.32   {d12,d13,d14,d15}, [lr, :128]!
+  vtrn.32   q13, q14
+  vtrn.32   q11, q12
+  vmul.f32  d24, d26, d21
+  vmul.f32  d28, d27, d20
+  vmul.f32  d25, d26, d20
+  vmul.f32  d26, d27, d21
+  vmul.f32  d27, d22, d21
+  vmul.f32  d30, d23, d20
+  vmul.f32  d29, d23, d21
+  vmul.f32  d22, d22, d20
+  vsub.f32  d21, d28, d24
+  vadd.f32  d20, d26, d25
+  vadd.f32  d25, d30, d27
+  vsub.f32  d24, d22, d29
+  vadd.f32  q11, q12, q10
+  ldr       r11, [r0, #32]  @ p->i1
+  vsub.f32  q10, q12, q10
+  vadd.f32  q0,  q9,  q11
+  vsub.f32  q2,  q9,  q11
+  vsub.f32  d3,  d17, d20
+  vadd.f32  d7,  d17, d20
+  vadd.f32  d2,  d16, d21
+  vsub.f32  d6,  d16, d21
+  cmp       r11, #0
+  vswp      d1,  d2
+  vswp      d5,  d6
+  vstmia    r3!, {q0-q3}
+  beq       _neon_ee_loop2_exit
 
+_neon_oo_loop:
+  vld2.32   {q8},  [r6, :128]!
+  vld2.32   {q9},  [r5, :128]!
+  vld2.32   {q10}, [r4, :128]!
+  vld2.32   {q13}, [r1, :128]!
+  vadd.f32  q11, q9,  q8
+  vsub.f32  q8,  q9,  q8
+  vsub.f32  q9,  q13, q10
+  vadd.f32  q12, q13, q10
+  subs      r11, r11, #1
+  vld2.32   {q10}, [r9, :128]!
+  vld2.32   {q13}, [r7, :128]!
+  vsub.f32  q2, q12, q11
+  vadd.f32  d7, d19, d16
+  vsub.f32  d3, d19, d16
+  vsub.f32  d6, d18, d17
+  vadd.f32  d2, d18, d17
+  vld2.32   {q9}, [r10, :128]!
+  vld2.32   {q8}, [r8,  :128]!
+  vadd.f32  q0,  q12, q11
+  vadd.f32  q11, q13, q8
+  vadd.f32  q12, q10, q9
+  vsub.f32  q8,  q13, q8
+  vsub.f32  q9,  q10, q9
+  vsub.f32  q6,  q12, q11
+  vadd.f32  q4,  q12, q11
+  vtrn.32   q0,  q2
+  ldr       r3, [r12], #4
+  vadd.f32  d15, d19, d16
+  ldr       lr, [r12], #4
+  vsub.f32  d11, d19, d16
+  vsub.f32  d14, d18, d17
+  vadd.f32  d10, d18, d17
+  add       r3, r2, r3, lsl #2
+  vtrn.32   q1, q3
+  add       lr, r2, lr, lsl #2
+  vst2.32   {q0,q1}, [r3, :128]!
+  vst2.32   {q2,q3}, [lr, :128]!
+  vtrn.32   q4, q6
+  vtrn.32   q5, q7
+  vst2.32   {q4, q5}, [r3, :128]!
+  vst2.32   {q6, q7}, [lr, :128]!
+  bne       _neon_oo_loop
+
+  ldr       r3,  [r0, #16]  @ p->ee_ws
+  ldr       r11, [r0, #32]  @ p->i1
+  vld1.32   {d16, d17}, [r3, :128]
+_neon_ee_loop2:
+  vld2.32   {q15}, [r5,  :128]!
+  vld2.32   {q13}, [r4,  :128]!
+  vld2.32   {q14}, [r1,  :128]!
+  vld2.32   {q9},  [r10, :128]!
+  vld2.32   {q10}, [r9,  :128]!
+  vld2.32   {q11}, [r8,  :128]!
+  vld2.32   {q12}, [r7,  :128]!
+  vsub.f32  q1,  q14, q13
+  vld2.32   {q0}, [r6,   :128]!
+  subs      r11, r11, #1
+  vsub.f32  q2,  q0,  q15
+  vadd.f32  q0,  q0,  q15
+  vmul.f32  d10, d2,  d17
+  vmul.f32  d11, d3,  d16
+  vmul.f32  d12, d3,  d17
+  vmul.f32  d6,  d4,  d17
+  vmul.f32  d7,  d5,  d16
+  vmul.f32  d8,  d4,  d16
+  vmul.f32  d9,  d5,  d17
+  vmul.f32  d13, d2,  d16
+  vsub.f32  d7,  d7,  d6
+  vadd.f32  d11, d11, d10
+  vsub.f32  q1,  q12, q11
+  vsub.f32  q2,  q10, q9
+  vadd.f32  d6,  d9,  d8
+  vadd.f32  q4,  q14, q13
+  vadd.f32  q11, q12, q11
+  vadd.f32  q12, q10, q9
+  vsub.f32  d10, d13, d12
+  vsub.f32  q7,  q4,  q0
+  vsub.f32  q9,  q12, q11
+  vsub.f32  q13, q5,  q3
+  vsub.f32  d29, d5,  d2
+  vadd.f32  q5,  q5,  q3
+  vadd.f32  q10, q4,  q0
+  vadd.f32  q11, q12, q11
+  vadd.f32  d31, d5,  d2
+  vadd.f32  d28, d4,  d3
+  vsub.f32  d30, d4,  d3
+  vsub.f32  d5,  d19, d14
+  vsub.f32  d7,  d31, d26
+  vadd.f32  q1,  q14, q5
+  vadd.f32  q0,  q11, q10
+  vadd.f32  d6,  d30, d27
+  vadd.f32  d4,  d18, d15
+  vadd.f32  d13, d19, d14
+  vsub.f32  d12, d18, d15
+  vadd.f32  d15, d31, d26
+  ldr       r3,  [r12], #4
+  vtrn.32   q1,  q3
+  ldr       lr,  [r12], #4
+  vtrn.32   q0,  q2
+  add       r3,  r2, r3, lsl #2
+  vsub.f32  q4,  q11, q10
+  add       lr,  r2, lr, lsl #2
+  vsub.f32  q5,  q14, q5
+  vsub.f32  d14, d30, d27
+  vst2.32   {q0, q1}, [r3, :128]!
+  vst2.32   {q2, q3}, [lr, :128]!
+  vtrn.32   q4,  q6
+  vtrn.32   q5,  q7
+  vst2.32   {q4, q5}, [r3, :128]!
+  vst2.32   {q6, q7}, [lr, :128]!
+  bne       _neon_ee_loop2
 
+_neon_ee_loop2_exit:
+  vpop      {q4-q7}
+  pop       {r4-r12, pc}
 
-	.align 4
+  .align 4
 #ifdef __APPLE__
-	.globl	_neon_static_o_f
+  .globl    _neon_static_o_f
 _neon_static_o_f:
 #else
-	.globl	neon_static_o_f
+  .globl    neon_static_o_f
 neon_static_o_f:
 #endif
-  push	{r4, r5, r6, r7, r8, r9, r10, r11, lr}
-  vstmdb	sp!, {d8-d15}
-  ldr lr, [r0, #40]  @ this is p->N
-  add	r3, r1, #0	
-  add	r7, r1, lr 
-  add	r5, r7, lr 
-  add	r10, r5, lr
-  add	r4, r10, lr	
-  add	r8, r4, lr
-  add	r6, r8, lr
-  add	r9, r6, lr
-  ldr	r12, [r0]
-  add	r1, r0, #0
-  add	r0, r2, #0	
-  ldr	r2, [r1, #16]   @ this is p->ee_ws
-  ldr	r11, [r1, #28]  @ this is p->i0	
-	
-	vld1.32	{d16, d17}, [r2, :128]
+  push      {r4-r12, lr}
+  vpush     {q4-q7}
+
+  ldr       lr,  [r0, #40]  @ p->N
+  ldr       r12, [r0     ]  @ p->offsets
+  ldr       r3,  [r0, #16]  @ p->ee_ws
+
+  add       r7,  r1,   lr
+  add       r5,  r1,   lr, lsl #1
+  add       r4,  r1,   lr, lsl #2
+  add       r10, r7,   lr, lsl #1
+  add       r8,  r7,   lr, lsl #2
+
+  ldr       r11, [r0, #28]  @ p->i0
+
+  add       r6,  r4,   lr, lsl #1
+  add       r9,  r10,  lr, lsl #2
+
+  vld1.32   {d16, d17}, [r3, :128]
 _neon_ee_o_loop:
-	vld2.32 {q15}, [r10, :128]!
-	vld2.32 {q13}, [r8, :128]!
-	vld2.32 {q14}, [r7, :128]!
-	vld2.32 {q9},  [r4, :128]!
-	vld2.32 {q10}, [r3, :128]!
-	vld2.32 {q11}, [r6, :128]!
-	vld2.32 {q12}, [r5, :128]!
-	vsub.f32	q1, q14, q13
-	vld2.32 {q0}, [r9, :128]!
-	subs	r11, r11, #1
-	vsub.f32	q2, q0, q15
-	vadd.f32	q0, q0, q15
-	vmul.f32	d10, d2, d17
-	vmul.f32	d11, d3, d16
-	vmul.f32	d12, d3, d17
-	vmul.f32	d6, d4, d17  
-	vmul.f32	d7, d5, d16  
-	vmul.f32	d8, d4, d16  
-	vmul.f32	d9, d5, d17  
-	vmul.f32	d13, d2, d16
-	vsub.f32	d7, d7, d6
-	vadd.f32	d11, d11, d10
-	vsub.f32	q1, q12, q11
-	vsub.f32	q2, q10, q9
-	vadd.f32	d6, d9, d8
-	vadd.f32	q4, q14, q13
-	vadd.f32	q11, q12, q11
-	vadd.f32	q12, q10, q9
-	vsub.f32	d10, d13, d12
-	vsub.f32	q7, q4, q0
-	vsub.f32	q9, q12, q11
-	vsub.f32	q13, q5, q3
-	vsub.f32	d29, d5, d2  @
-	vadd.f32	q5, q5, q3
-	vadd.f32	q10, q4, q0
-	vadd.f32	q11, q12, q11
-	vadd.f32	d31, d5, d2  @
-	vadd.f32	d28, d4, d3  @
-	vsub.f32	d30, d4, d3  @
-	vsub.f32	d5, d19, d14  @
-	vsub.f32	d7, d31, d26  @
-	vadd.f32	q1, q14, q5
-	vadd.f32	q0, q11, q10
-	vadd.f32	d6, d30, d27  @
-	vadd.f32	d4, d18, d15  @
-	vadd.f32	d13, d19, d14  @
-	vsub.f32	d12, d18, d15  @
-	vadd.f32	d15, d31, d26  @
-	ldr r2, [r12], #4
-	vtrn.32	q1, q3
-	ldr lr, [r12], #4
-	vtrn.32	q0, q2
-	add r2, r0, r2, lsl #2
-	vsub.f32	q4, q11, q10
-	add lr, r0, lr, lsl #2
-	vsub.f32	q5, q14, q5
-	vsub.f32	d14, d30, d27 @
-	vst2.32 {q0,q1}, [r2, :128]!
-	vst2.32 {q2,q3}, [lr, :128]!
-	vtrn.32	q4, q6
-	vtrn.32	q5, q7
-	vst2.32 {q4,q5}, [r2, :128]!
-	vst2.32 {q6,q7}, [lr, :128]!
-	bne _neon_ee_o_loop
-
-  add	r2, r7, #0	
-  add	r7, r9, #0	
-  add	r9, r2, #0	
-  add	r2, r8, #0	
-  add	r8, r10, #0	
-  add	r10, r2, #0	
-  ldr	r11, [r1, #32]  @ this is p->i1	
-	cmp r11, #0
-	beq _neon_oo_o_loop_exit
+  vld2.32   {q15}, [r10, :128]!
+  vld2.32   {q13}, [r8,  :128]!
+  vld2.32   {q14}, [r7,  :128]!
+  vld2.32   {q9},  [r4,  :128]!
+  vld2.32   {q10}, [r1,  :128]!
+  vld2.32   {q11}, [r6,  :128]!
+  vld2.32   {q12}, [r5,  :128]!
+  vsub.f32  q1,  q14, q13
+  vld2.32   {q0},  [r9,  :128]!
+  subs      r11, r11, #1
+  vsub.f32  q2,  q0,  q15
+  vadd.f32  q0,  q0,  q15
+  vmul.f32  d10, d2,  d17
+  vmul.f32  d11, d3,  d16
+  vmul.f32  d12, d3,  d17
+  vmul.f32  d6,  d4,  d17
+  vmul.f32  d7,  d5,  d16
+  vmul.f32  d8,  d4,  d16
+  vmul.f32  d9,  d5,  d17
+  vmul.f32  d13, d2,  d16
+  vsub.f32  d7,  d7,  d6
+  vadd.f32  d11, d11, d10
+  vsub.f32  q1,  q12, q11
+  vsub.f32  q2,  q10, q9
+  vadd.f32  d6,  d9,  d8
+  vadd.f32  q4,  q14, q13
+  vadd.f32  q11, q12, q11
+  vadd.f32  q12, q10, q9
+  vsub.f32  d10, d13, d12
+  vsub.f32  q7,  q4,  q0
+  vsub.f32  q9,  q12, q11
+  vsub.f32  q13, q5,  q3
+  vsub.f32  d29, d5,  d2
+  vadd.f32  q5,  q5,  q3
+  vadd.f32  q10, q4,  q0
+  vadd.f32  q11, q12, q11
+  vadd.f32  d31, d5,  d2
+  vadd.f32  d28, d4,  d3
+  vsub.f32  d30, d4,  d3
+  vsub.f32  d5,  d19, d14
+  vsub.f32  d7,  d31, d26
+  vadd.f32  q1,  q14, q5
+  vadd.f32  q0,  q11, q10
+  vadd.f32  d6,  d30, d27
+  vadd.f32  d4,  d18, d15
+  vadd.f32  d13, d19, d14
+  vsub.f32  d12, d18, d15
+  vadd.f32  d15, d31, d26
+  ldr       r3, [r12], #4
+  vtrn.32   q1,  q3
+  ldr       lr, [r12], #4
+  vtrn.32   q0,  q2
+  add       r3, r2, r3, lsl #2
+  vsub.f32  q4,  q11, q10
+  add       lr, r2, lr, lsl #2
+  vsub.f32  q5,  q14, q5
+  vsub.f32  d14, d30, d27
+  vst2.32   {q0, q1}, [r3, :128]!
+  vst2.32   {q2, q3}, [lr, :128]!
+  vtrn.32   q4,  q6
+  vtrn.32   q5,  q7
+  vst2.32   {q4, q5}, [r3, :128]!
+  vst2.32   {q6, q7}, [lr, :128]!
+  bne       _neon_ee_o_loop
+
+  ldr       r11, [r0, #32]  @ p->i1
+  cmp       r11, #0
+  beq       _neon_oo_o_loop_exit
 _neon_oo_o_loop:
-	vld2.32 {q8}, [r6, :128]!
-	vld2.32 {q9}, [r5, :128]!
-	vld2.32 {q10}, [r4, :128]!
-	vld2.32 {q13}, [r3, :128]!
-	vadd.f32	q11, q9, q8
-	vsub.f32	q8, q9, q8
-	vsub.f32	q9, q13, q10
-	vadd.f32	q12, q13, q10
-	subs	r11, r11, #1
-	vld2.32 {q10}, [r7, :128]!
-	vld2.32 {q13}, [r9, :128]!
-	vsub.f32	q2, q12, q11
-	vadd.f32	d7, d19, d16  @
-	vsub.f32	d3, d19, d16  @
-	vsub.f32	d6, d18, d17  @
-	vadd.f32	d2, d18, d17  @
-	vld2.32 {q9}, [r8, :128]!
-	vld2.32 {q8}, [r10, :128]!
-	vadd.f32	q0, q12, q11
-	vadd.f32	q11, q13, q8
-	vadd.f32	q12, q10, q9
-	vsub.f32	q8, q13, q8
-	vsub.f32	q9, q10, q9
-	vsub.f32	q6, q12, q11
-	vadd.f32	q4, q12, q11
-	vtrn.32	q0, q2
-	ldr r2, [r12], #4
-	vadd.f32	d15, d19, d16  @
-	ldr lr, [r12], #4
-	vsub.f32	d11, d19, d16  @
-	vsub.f32	d14, d18, d17  @
-	vadd.f32	d10, d18, d17  @
-	add r2, r0, r2, lsl #2
-	vtrn.32	q1, q3
-	add lr, r0, lr, lsl #2
-	vst2.32 {q0,q1}, [r2, :128]!
-	vst2.32 {q2,q3}, [lr, :128]!
-	vtrn.32	q4, q6
-	vtrn.32	q5, q7
-	vst2.32 {q4,q5}, [r2, :128]!
-	vst2.32 {q6,q7}, [lr, :128]!
-	bne _neon_oo_o_loop
-_neon_oo_o_loop_exit:
+  vld2.32   {q8}, [r6, :128]!
+  vld2.32   {q9}, [r5, :128]!
+  vld2.32   {q10}, [r4, :128]!
+  vld2.32   {q13}, [r1, :128]!
+  vadd.f32  q11, q9,  q8
+  vsub.f32  q8,  q9,  q8
+  vsub.f32  q9,  q13, q10
+  vadd.f32  q12, q13, q10
+  subs      r11, r11, #1
+  vld2.32   {q10}, [r9, :128]!
+  vld2.32   {q13}, [r7, :128]!
+  vsub.f32  q2,  q12, q11
+  vadd.f32  d7,  d19, d16
+  vsub.f32  d3,  d19, d16
+  vsub.f32  d6,  d18, d17
+  vadd.f32  d2,  d18, d17
+  vld2.32   {q9}, [r10, :128]!
+  vld2.32   {q8}, [r8,  :128]!
+  vadd.f32  q0,  q12, q11
+  vadd.f32  q11, q13, q8
+  vadd.f32  q12, q10, q9
+  vsub.f32  q8,  q13, q8
+  vsub.f32  q9,  q10, q9
+  vsub.f32  q6,  q12, q11
+  vadd.f32  q4,  q12, q11
+  vtrn.32   q0,  q2
+  ldr       r3, [r12], #4
+  vadd.f32  d15, d19, d16
+  ldr       lr, [r12], #4
+  vsub.f32  d11, d19, d16
+  vsub.f32  d14, d18, d17
+  vadd.f32  d10, d18, d17
+  add       r3, r2, r3, lsl #2
+  vtrn.32   q1, q3
+  add       lr, r2, lr, lsl #2
+  vst2.32   {q0,q1}, [r3, :128]!
+  vst2.32   {q2,q3}, [lr, :128]!
+  vtrn.32   q4,  q6
+  vtrn.32   q5,  q7
+  vst2.32   {q4,q5}, [r3, :128]!
+  vst2.32   {q6,q7}, [lr, :128]!
+  bne       _neon_oo_o_loop
 
-	ldr	r11, [r1, #8]
-	vld1.32 {q8}, [r5, :128]!
-	vld1.32 {q10}, [r6, :128]!
-	vld2.32 {q11}, [r4, :128]!
-	vld2.32 {q13}, [r3, :128]!
-	vld2.32 {q15}, [r10, :128]!
-	vorr	d25, d17, d17
-	vorr	d24, d20, d20
-	vorr	d20, d16, d16
-	vsub.f32	q9, q13, q11
-	vadd.f32	q11, q13, q11
-	ldr r2, [r12], #4
-	vtrn.32	d24, d25
-	ldr lr, [r12], #4
-	vtrn.32	d20, d21
-	add r2, r0, r2, lsl #2
-	vsub.f32	q8, q10, q12
-	add lr, r0, lr, lsl #2
-	vadd.f32	q10, q10, q12
-	vadd.f32	q0, q11, q10
-	vsub.f32	d25, d19, d16  @
-	vadd.f32	d27, d19, d16  @
-	vsub.f32	q1, q11, q10
-	vadd.f32	d24, d18, d17  @
-	vsub.f32	d26, d18, d17  @
-	vtrn.32	q0, q12
-	vtrn.32	q1, q13
-	vld1.32	{d24, d25}, [r11, :128]
-	vswp d1, d2
-	vst1.32 {q0, q1}, [r2, :128]!
-	vld2.32 {q0}, [r9, :128]!
-	vadd.f32	q1, q0, q15
-	vld2.32 {q13}, [r8, :128]!
-	vld2.32 {q14}, [r7, :128]!
-	vsub.f32	q15, q0, q15
-	vsub.f32	q0, q14, q13
-	vadd.f32	q3, q14, q13
-	vadd.f32	q2, q3, q1
-	vsub.f32	d29, d1, d30  @
-	vadd.f32	d27, d1, d30  @
-	vsub.f32	q3, q3, q1
-	vadd.f32	d28, d0, d31  @
-	vsub.f32	d26, d0, d31  @
-	vtrn.32	q2, q14
-	vtrn.32	q3, q13
-	vswp d5, d6
-	vst1.32 {q2, q3}, [r2, :128]!
-	vtrn.32	q11, q9
-	vtrn.32	q10, q8
-	vmul.f32	d20, d18, d25
-	vmul.f32	d22, d19, d24
-	vmul.f32	d21, d19, d25
-	vmul.f32	d18, d18, d24
-	vmul.f32	d19, d16, d25
-	vmul.f32	d30, d17, d24
-	vmul.f32	d23, d16, d24
-	vmul.f32	d24, d17, d25
-	vadd.f32	d17, d22, d20
-	vsub.f32	d16, d18, d21
-	vsub.f32	d21, d30, d19
-	vadd.f32	d20, d24, d23
-	vadd.f32	q9, q8, q10
-	vsub.f32	q8, q8, q10
-	vadd.f32	q4, q14, q9
-	vsub.f32	q6, q14, q9
-	vsub.f32	d11, d27, d16  @
-	vadd.f32	d15, d27, d16  @
-	vadd.f32	d10, d26, d17  @
-	vsub.f32	d14, d26, d17  @
-	vswp d9, d10
-	vswp d13, d14
-	vstmia lr!, {q4-q7}
-
-
-  add	r2, r3, #0
-  add	r3, r7, #0
-  add	r7, r2, #0
-  add	r2, r4, #0
-  add	r4, r8, #0
-  add	r8, r2, #0
-  add	r2, r5, #0
-  add	r5, r9, #0
-  add	r9, r2, #0
-  add	r2, r6, #0
-  add	r6, r10, #0
-  add	r10, r2, #0
-  add	r2, r9, #0	
-  add	r9, r10, #0	
-  add	r10, r2, #0	
-  ldr	r2, [r1, #16]
-  ldr	r11, [r1, #32]  @ this is p->i1	
-	cmp r11, #0
-	beq _neon_ee_o_loop2_exit
-
-	vld1.32	{d16, d17}, [r2, :128]
+_neon_oo_o_loop_exit:
+  ldr       r11,   [r0, #8]
+  vld1.32   {q8},  [r5, :128]!
+  vld1.32   {q10}, [r6, :128]!
+  vld2.32   {q11}, [r4, :128]!
+  vld2.32   {q13}, [r1, :128]!
+  vld2.32   {q15}, [r8, :128]!
+  vorr      d25, d17, d17
+  vorr      d24, d20, d20
+  vorr      d20, d16, d16
+  vsub.f32  q9,  q13, q11
+  vadd.f32  q11, q13, q11
+  ldr       r3, [r12], #4
+  vtrn.32   d24, d25
+  ldr       lr, [r12], #4
+  vtrn.32   d20, d21
+  add       r3, r2, r3, lsl #2
+  vsub.f32  q8,  q10, q12
+  add       lr, r2, lr, lsl #2
+  vadd.f32  q10, q10, q12
+  vadd.f32  q0,  q11, q10
+  vsub.f32  d25, d19, d16
+  vadd.f32  d27, d19, d16
+  vsub.f32  q1,  q11, q10
+  vadd.f32  d24, d18, d17
+  vsub.f32  d26, d18, d17
+  vtrn.32   q0,  q12
+  vtrn.32   q1,  q13
+  vld1.32   {d24, d25}, [r11, :128]
+  vswp      d1, d2
+  vst1.32   {q0, q1}, [r3, :128]!
+  vld2.32   {q0}, [r7, :128]!
+  vadd.f32  q1, q0, q15
+  vld2.32   {q13}, [r10, :128]!
+  vld2.32   {q14}, [r9,  :128]!
+  vsub.f32  q15, q0,  q15
+  vsub.f32  q0,  q14, q13
+  vadd.f32  q3,  q14, q13
+  vadd.f32  q2,  q3,  q1
+  vsub.f32  d29, d1,  d30
+  vadd.f32  d27, d1,  d30
+  vsub.f32  q3,  q3,  q1
+  vadd.f32  d28, d0,  d31
+  vsub.f32  d26, d0,  d31
+  vtrn.32   q2,  q14
+  vtrn.32   q3,  q13
+  vswp      d5,  d6
+  vst1.32   {q2, q3}, [r3, :128]!
+  vtrn.32   q11, q9
+  vtrn.32   q10, q8
+  vmul.f32  d20, d18, d25
+  vmul.f32  d22, d19, d24
+  vmul.f32  d21, d19, d25
+  vmul.f32  d18, d18, d24
+  vmul.f32  d19, d16, d25
+  vmul.f32  d30, d17, d24
+  vmul.f32  d23, d16, d24
+  vmul.f32  d24, d17, d25
+  vadd.f32  d17, d22, d20
+  vsub.f32  d16, d18, d21
+  ldr       r3,  [r0, #16]  @ p->ee_ws
+  vsub.f32  d21, d30, d19
+  ldr       r11, [r0, #32]  @ p->i1
+  vadd.f32  d20, d24, d23
+  vadd.f32  q9,  q8,  q10
+  vsub.f32  q8,  q8,  q10
+  vadd.f32  q4,  q14, q9
+  vsub.f32  q6,  q14, q9
+  vsub.f32  d11, d27, d16
+  vadd.f32  d15, d27, d16
+  vadd.f32  d10, d26, d17
+  vsub.f32  d14, d26, d17
+  cmp       r11, #0
+  vswp      d9,  d10
+  vswp      d13, d14
+  vstmia    lr!, {q4-q7}
+  beq       _neon_ee_o_loop2_exit
+
+  vld1.32   {d16, d17}, [r3, :128]
 _neon_ee_o_loop2:
-	vld2.32 {q15}, [r10, :128]!
-	vld2.32 {q13}, [r8, :128]!
-	vld2.32 {q14}, [r7, :128]!
-	vld2.32 {q9},  [r4, :128]!
-	vld2.32 {q10}, [r3, :128]!
-	vld2.32 {q11}, [r6, :128]!
-	vld2.32 {q12}, [r5, :128]!
-	vsub.f32	q1, q14, q13
-	vld2.32 {q0}, [r9, :128]!
-	subs	r11, r11, #1
-	vsub.f32	q2, q0, q15
-	vadd.f32	q0, q0, q15
-	vmul.f32	d10, d2, d17
-	vmul.f32	d11, d3, d16
-	vmul.f32	d12, d3, d17
-	vmul.f32	d6, d4, d17  
-	vmul.f32	d7, d5, d16  
-	vmul.f32	d8, d4, d16  
-	vmul.f32	d9, d5, d17  
-	vmul.f32	d13, d2, d16
-	vsub.f32	d7, d7, d6
-	vadd.f32	d11, d11, d10
-	vsub.f32	q1, q12, q11
-	vsub.f32	q2, q10, q9
-	vadd.f32	d6, d9, d8
-	vadd.f32	q4, q14, q13
-	vadd.f32	q11, q12, q11
-	vadd.f32	q12, q10, q9
-	vsub.f32	d10, d13, d12
-	vsub.f32	q7, q4, q0
-	vsub.f32	q9, q12, q11
-	vsub.f32	q13, q5, q3
-	vsub.f32	d29, d5, d2  @
-	vadd.f32	q5, q5, q3
-	vadd.f32	q10, q4, q0
-	vadd.f32	q11, q12, q11
-	vadd.f32	d31, d5, d2  @
-	vadd.f32	d28, d4, d3  @
-	vsub.f32	d30, d4, d3  @
-	vsub.f32	d5, d19, d14  @
-	vsub.f32	d7, d31, d26  @
-	vadd.f32	q1, q14, q5
-	vadd.f32	q0, q11, q10
-	vadd.f32	d6, d30, d27  @
-	vadd.f32	d4, d18, d15  @
-	vadd.f32	d13, d19, d14  @
-	vsub.f32	d12, d18, d15  @
-	vadd.f32	d15, d31, d26  @
-	ldr r2, [r12], #4
-	vtrn.32	q1, q3
-	ldr lr, [r12], #4
-	vtrn.32	q0, q2
-	add r2, r0, r2, lsl #2
-	vsub.f32	q4, q11, q10
-	add lr, r0, lr, lsl #2
-	vsub.f32	q5, q14, q5
-	vsub.f32	d14, d30, d27 @
-	vst2.32 {q0,q1}, [r2, :128]!
-	vst2.32 {q2,q3}, [lr, :128]!
-	vtrn.32	q4, q6
-	vtrn.32	q5, q7
-	vst2.32 {q4,q5}, [r2, :128]!
-	vst2.32 {q6,q7}, [lr, :128]!
-	bne _neon_ee_o_loop2
-_neon_ee_o_loop2_exit:
+  vld2.32   {q15}, [r5,  :128]!
+  vld2.32   {q13}, [r4,  :128]!
+  vld2.32   {q14}, [r1,  :128]!
+  vld2.32   {q9},  [r10, :128]!
+  vld2.32   {q10}, [r9,  :128]!
+  vld2.32   {q11}, [r8,  :128]!
+  vld2.32   {q12}, [r7,  :128]!
+  vsub.f32  q1,  q14, q13
+  vld2.32   {q0},  [r6,  :128]!
+  subs      r11, r11, #1
+  vsub.f32  q2,  q0,  q15
+  vadd.f32  q0,  q0,  q15
+  vmul.f32  d10, d2,  d17
+  vmul.f32  d11, d3,  d16
+  vmul.f32  d12, d3,  d17
+  vmul.f32  d6,  d4,  d17
+  vmul.f32  d7,  d5,  d16
+  vmul.f32  d8,  d4,  d16
+  vmul.f32  d9,  d5,  d17
+  vmul.f32  d13, d2,  d16
+  vsub.f32  d7,  d7,  d6
+  vadd.f32  d11, d11, d10
+  vsub.f32  q1,  q12, q11
+  vsub.f32  q2,  q10, q9
+  vadd.f32  d6,  d9,  d8
+  vadd.f32  q4,  q14, q13
+  vadd.f32  q11, q12, q11
+  vadd.f32  q12, q10, q9
+  vsub.f32  d10, d13, d12
+  vsub.f32  q7,  q4,  q0
+  vsub.f32  q9,  q12, q11
+  vsub.f32  q13, q5,  q3
+  vsub.f32  d29, d5,  d2
+  vadd.f32  q5,  q5,  q3
+  vadd.f32  q10, q4,  q0
+  vadd.f32  q11, q12, q11
+  vadd.f32  d31, d5,  d2
+  vadd.f32  d28, d4,  d3
+  vsub.f32  d30, d4,  d3
+  vsub.f32  d5,  d19, d14
+  vsub.f32  d7,  d31, d26
+  vadd.f32  q1,  q14, q5
+  vadd.f32  q0,  q11, q10
+  vadd.f32  d6,  d30, d27
+  vadd.f32  d4,  d18, d15
+  vadd.f32  d13, d19, d14
+  vsub.f32  d12, d18, d15
+  vadd.f32  d15, d31, d26
+  ldr       r3, [r12], #4
+  vtrn.32   q1,  q3
+  ldr       lr, [r12], #4
+  vtrn.32   q0,  q2
+  add       r3, r2, r3, lsl #2
+  vsub.f32  q4, q11, q10
+  add       lr, r2, lr, lsl #2
+  vsub.f32  q5,  q14, q5
+  vsub.f32  d14, d30, d27
+  vst2.32   {q0, q1}, [r3, :128]!
+  vst2.32   {q2, q3}, [lr, :128]!
+  vtrn.32   q4,  q6
+  vtrn.32   q5,  q7
+  vst2.32   {q4, q5}, [r3, :128]!
+  vst2.32   {q6, q7}, [lr, :128]!
+  bne       _neon_ee_o_loop2
 
-	vldmia	sp!, {d8-d15}
-	pop	{r4, r5, r6, r7, r8, r9, r10, r11, pc}
+_neon_ee_o_loop2_exit:
+  vpop      {q4-q7}
+  pop       {r4-r12, pc}
 
-  .align 4
+  .align    4
 #ifdef __APPLE__
-  .globl _neon_static_x4_f
+  .globl    _neon_static_x4_f
 _neon_static_x4_f:
 #else
-  .globl neon_static_x4_f
+  .globl    neon_static_x4_f
 neon_static_x4_f:
 #endif
   add       r3, r0, #64
@@ -704,252 +655,244 @@ neon_static_x4_f:
   vpop      {q4-q7}
   bx        lr
 
-	.align 4
+  .align    4
 #ifdef __APPLE__
-	.globl	_neon_static_x8_f
+  .globl    _neon_static_x8_f
 _neon_static_x8_f:
 #else
-	.globl	neon_static_x8_f
+  .globl    neon_static_x8_f
 neon_static_x8_f:
 #endif
-  push	{r4, r5, r6, r7, r8, r9, r10, r11, lr}
-  vstmdb	sp!, {d8-d15}
-	mov r11, #0
-	add r3, r0, #0           @ data0
-	add r5, r0, r1, lsl #1   @ data2
-	add r4, r0, r1           @ data1
-	add r7, r5, r1, lsl #1   @ data4
-	add r6, r5, r1           @ data3
-	add r9, r7, r1, lsl #1   @ data6
-	add r8, r7, r1           @ data5
-	add r10, r9, r1          @ data7
-	add r12, r2, #0          @ LUT
-
-	sub r11, r11, r1, lsr #5
-neon_x8_loop: 
-  vld1.32 {q2,q3}, [r12, :128]!
-  vld1.32 {q14,q15}, [r6, :128]
-  vld1.32 {q10,q11}, [r5, :128]
-  adds	r11, r11, #1
-  vmul.f32	q12, q15, q2
-  vmul.f32	q8, q14, q3
-  vmul.f32	q13, q14, q2
-  vmul.f32	q9, q10, q3
-  vmul.f32	q1, q10, q2
-  vmul.f32	q0, q11, q2
-  vmul.f32	q14, q11, q3
-  vmul.f32	q15, q15, q3
-  vld1.32 {q2,q3}, [r12, :128]!
-  vsub.f32	q10, q12, q8
-  vadd.f32	q11, q0, q9
-  vadd.f32	q8, q15, q13
-  vld1.32 {q12,q13}, [r4, :128]
-  vsub.f32	q9, q1, q14
-  vsub.f32	q15, q11, q10
-  vsub.f32	q14, q9, q8
-  vadd.f32	q4, q12, q15  @
-  vsub.f32	q6, q12, q15  @ 
-  vsub.f32	q5, q13, q14  @
-  vadd.f32	q7, q13, q14  @
-  vld1.32 {q14,q15}, [r9, :128]
-  vld1.32 {q12,q13}, [r7, :128]
-  vmul.f32	q1, q14, q2
-  vmul.f32	q0, q14, q3
-  vst1.32 {q4,q5}, [r4, :128]
-  vmul.f32	q14, q15, q3
-  vmul.f32	q4, q15, q2
-  vadd.f32	q15, q9, q8
-  vst1.32 {q6,q7}, [r6, :128]
-  vmul.f32	q8, q12, q3
-  vmul.f32	q5, q13, q3
-  vmul.f32	q12, q12, q2
-  vmul.f32	q9, q13, q2
-  vadd.f32	q14, q14, q1
-  vsub.f32	q13, q4, q0
-  vadd.f32	q0, q9, q8
-  vld1.32 {q8,q9}, [r3, :128]
-  vadd.f32	q1, q11, q10
-  vsub.f32	q12, q12, q5
-  vadd.f32	q11, q8, q15
-  vsub.f32	q8, q8, q15
-  vadd.f32	q2, q12, q14
-  vsub.f32	q10, q0, q13
-  vadd.f32	q15, q0, q13
-  vadd.f32	q13, q9, q1
-  vsub.f32	q9, q9, q1
-  vsub.f32	q12, q12, q14
-  vadd.f32	q0, q11, q2
-  vadd.f32	q1, q13, q15
-  vsub.f32	q4, q11, q2
-  vadd.f32	q2, q8, q10  @
-  vsub.f32	q3, q9, q12  @
-  vst1.32 {q0,q1}, [r3, :128]!
-  vsub.f32	q5, q13, q15
-  vld1.32 {q14,q15}, [r10, :128]
-  vadd.f32	q7, q9, q12  @
-  vld1.32 {q12,q13}, [r8, :128]
-  vst1.32 {q2,q3}, [r5, :128]!
-  vld1.32 {q2,q3}, [r12, :128]!
-  vsub.f32	q6, q8, q10  @
-  vmul.f32	q8, q14, q2
-  vst1.32 {q4,q5}, [r7, :128]!
-  vmul.f32	q10, q15, q3
-  vmul.f32	q9, q13, q3
-  vmul.f32	q11, q12, q2
-  vmul.f32	q14, q14, q3
-  vst1.32 {q6,q7}, [r9, :128]!
-  vmul.f32	q15, q15, q2
-  vmul.f32	q12, q12, q3
-  vmul.f32	q13, q13, q2
-  vadd.f32	q10, q10, q8
-  vsub.f32	q11, q11, q9
-  vld1.32 {q8,q9}, [r4, :128]
-  vsub.f32	q14, q15, q14
-  vadd.f32	q15, q13, q12
-  vadd.f32	q13, q11, q10
-  vadd.f32	q12, q15, q14
-  vsub.f32	q15, q15, q14
-  vsub.f32	q14, q11, q10
-  vld1.32 {q10,q11}, [r6, :128]
-  vadd.f32	q0, q8, q13
-  vadd.f32	q1, q9, q12
-  vadd.f32	q2, q10, q15  @
-  vsub.f32	q3, q11, q14  @
-  vsub.f32	q4, q8, q13
-  vst1.32 {q0,q1}, [r4, :128]!
-  vsub.f32	q5, q9, q12
-  vsub.f32	q6, q10, q15  @
-  vst1.32 {q2,q3}, [r6, :128]!
-  vadd.f32	q7, q11, q14  @
-  vst1.32 {q4,q5}, [r8, :128]!
-  vst1.32 {q6,q7}, [r10, :128]!
-	bne neon_x8_loop	
-
-	vldmia	sp!, {d8-d15}
-	pop	{r4, r5, r6, r7, r8, r9, r10, r11, pc}
-
-	.align 4
+  push      {r4-r8, lr}
+  vpush     {q4-q7}
+
+  add       r4,  r0, r1, lsl #1  @ data2
+  add       r3,  r0, r1          @ data1
+  add       r6,  r4, r1, lsl #1  @ data4
+  add       r5,  r4, r1          @ data3
+  add       r8,  r6, r1, lsl #1  @ data6
+  add       r7,  r6, r1          @ data5
+  add       r12, r8, r1          @ data7
+
+neon_x8_loop:
+  vld1.32   {q2,  q3},  [r2,  :128]!
+  subs      r1,  r1,  #32
+  vld1.32   {q14, q15}, [r5,  :128]
+  vmul.f32  q12, q15, q2
+  vld1.32   {q10, q11}, [r4,  :128]
+  vmul.f32  q8,  q14, q3
+  vmul.f32  q13, q14, q2
+  vmul.f32  q9,  q10, q3
+  vmul.f32  q1,  q10, q2
+  vmul.f32  q0,  q11, q2
+  vmul.f32  q14, q11, q3
+  vmul.f32  q15, q15, q3
+  vsub.f32  q10, q12, q8
+  vld1.32   {q2,  q3},  [r2,  :128]!
+  vadd.f32  q11, q0,  q9
+  vadd.f32  q8,  q15, q13
+  vsub.f32  q9,  q1,  q14
+  vld1.32   {q12, q13}, [r3,  :128]
+  vsub.f32  q15, q11, q10
+  vsub.f32  q14, q9,  q8
+  vadd.f32  q4,  q12, q15
+  vsub.f32  q6,  q12, q15
+  vsub.f32  q5,  q13, q14
+  vadd.f32  q7,  q13, q14
+  vld1.32   {q14, q15}, [r8,  :128]
+  vld1.32   {q12, q13}, [r6,  :128]
+  vmul.f32  q1,  q14, q2
+  vmul.f32  q0,  q14, q3
+  vst1.32   {q4,  q5},  [r3,  :128]
+  vmul.f32  q14, q15, q3
+  vmul.f32  q4,  q15, q2
+  vadd.f32  q15, q9,  q8
+  vst1.32   {q6,  q7},  [r5,  :128]
+  vmul.f32  q8,  q12, q3
+  vmul.f32  q5,  q13, q3
+  vmul.f32  q12, q12, q2
+  vmul.f32  q9,  q13, q2
+  vadd.f32  q14, q14, q1
+  vsub.f32  q13, q4,  q0
+  vadd.f32  q0,  q9,  q8
+  vld1.32   {q8,  q9},  [r0,  :128]
+  vadd.f32  q1,  q11, q10
+  vsub.f32  q12, q12, q5
+  vadd.f32  q11, q8,  q15
+  vsub.f32  q8,  q8,  q15
+  vadd.f32  q2,  q12, q14
+  vsub.f32  q10, q0,  q13
+  vadd.f32  q15, q0,  q13
+  vadd.f32  q13, q9,  q1
+  vsub.f32  q9,  q9,  q1
+  vsub.f32  q12, q12, q14
+  vadd.f32  q0,  q11, q2
+  vadd.f32  q1,  q13, q15
+  vsub.f32  q4,  q11, q2
+  vadd.f32  q2,  q8,  q10
+  vsub.f32  q3,  q9,  q12
+  vst1.32   {q0,  q1},  [r0,  :128]!
+  vsub.f32  q5,  q13, q15
+  vld1.32   {q14, q15}, [r12, :128]
+  vadd.f32  q7,  q9,  q12
+  vld1.32   {q12, q13}, [r7,  :128]
+  vst1.32   {q2,  q3},  [r4,  :128]!
+  vld1.32   {q2,  q3},  [r2,  :128]!
+  vsub.f32  q6,  q8,  q10
+  vmul.f32  q8,  q14, q2
+  vst1.32   {q4,  q5},  [r6,  :128]!
+  vmul.f32  q10, q15, q3
+  vmul.f32  q9,  q13, q3
+  vmul.f32  q11, q12, q2
+  vmul.f32  q14, q14, q3
+  vst1.32   {q6,  q7},  [r8,  :128]!
+  vmul.f32  q15, q15, q2
+  vmul.f32  q12, q12, q3
+  vmul.f32  q13, q13, q2
+  vadd.f32  q10, q10, q8
+  vsub.f32  q11, q11, q9
+  vld1.32   {q8,  q9},  [r3,  :128]
+  vsub.f32  q14, q15, q14
+  vadd.f32  q15, q13, q12
+  vadd.f32  q13, q11, q10
+  vadd.f32  q12, q15, q14
+  vsub.f32  q15, q15, q14
+  vsub.f32  q14, q11, q10
+  vld1.32   {q10, q11}, [r5,  :128]
+  vadd.f32  q0,  q8,  q13
+  vadd.f32  q1,  q9,  q12
+  vadd.f32  q2,  q10, q15
+  vsub.f32  q3,  q11, q14
+  vsub.f32  q4,  q8,  q13
+  vst1.32   {q0,  q1},  [r3,  :128]!
+  vsub.f32  q5,  q9,  q12
+  vsub.f32  q6,  q10, q15
+  vst1.32   {q2,  q3},  [r5,  :128]!
+  vadd.f32  q7,  q11, q14
+  vst1.32   {q4,  q5},  [r7,  :128]!
+  vst1.32   {q6,  q7},  [r12, :128]!
+  bne       neon_x8_loop
+
+  vpop      {q4-q7}
+  pop       {r4-r8, pc}
+
+  .align    4
 #ifdef __APPLE__
-	.globl	_neon_static_x8_t_f
+  .globl    _neon_static_x8_t_f
 _neon_static_x8_t_f:
 #else
-	.globl	neon_static_x8_t_f
+  .globl    neon_static_x8_t_f
 neon_static_x8_t_f:
 #endif
-  push	{r4, r5, r6, r7, r8, r9, r10, r11, lr}
-  vstmdb	sp!, {d8-d15}
-	mov r11, #0
-	add r3, r0, #0           @ data0
-	add r5, r0, r1, lsl #1   @ data2
-	add r4, r0, r1           @ data1
-	add r7, r5, r1, lsl #1   @ data4
-	add r6, r5, r1           @ data3
-	add r9, r7, r1, lsl #1   @ data6
-	add r8, r7, r1           @ data5
-	add r10, r9, r1          @ data7
-	add r12, r2, #0          @ LUT
-
-	sub r11, r11, r1, lsr #5
-neon_x8_t_loop: 
-  vld1.32 {q2,q3}, [r12, :128]!
-  vld1.32 {q14,q15}, [r6, :128]
-  vld1.32 {q10,q11}, [r5, :128]
-  adds	r11, r11, #1
-  vmul.f32	q12, q15, q2
-  vmul.f32	q8, q14, q3
-  vmul.f32	q13, q14, q2
-  vmul.f32	q9, q10, q3
-  vmul.f32	q1, q10, q2
-  vmul.f32	q0, q11, q2
-  vmul.f32	q14, q11, q3
-  vmul.f32	q15, q15, q3
-  vld1.32 {q2,q3}, [r12, :128]!
-  vsub.f32	q10, q12, q8
-  vadd.f32	q11, q0, q9
-  vadd.f32	q8, q15, q13
-  vld1.32 {q12,q13}, [r4, :128]
-  vsub.f32	q9, q1, q14
-  vsub.f32	q15, q11, q10
-  vsub.f32	q14, q9, q8
-  vadd.f32	q4, q12, q15  @
-  vsub.f32	q6, q12, q15  @
-  vsub.f32	q5, q13, q14  @
-  vadd.f32	q7, q13, q14  @
-  vld1.32 {q14,q15}, [r9, :128]
-  vld1.32 {q12,q13}, [r7, :128]
-  vmul.f32	q1, q14, q2
-  vmul.f32	q0, q14, q3
-  vst1.32 {q4,q5}, [r4, :128]
-  vmul.f32	q14, q15, q3
-  vmul.f32	q4, q15, q2
-  vadd.f32	q15, q9, q8
-  vst1.32 {q6,q7}, [r6, :128]
-  vmul.f32	q8, q12, q3
-  vmul.f32	q5, q13, q3
-  vmul.f32	q12, q12, q2
-  vmul.f32	q9, q13, q2
-  vadd.f32	q14, q14, q1
-  vsub.f32	q13, q4, q0
-  vadd.f32	q0, q9, q8
-  vld1.32 {q8,q9}, [r3, :128]
-  vadd.f32	q1, q11, q10
-  vsub.f32	q12, q12, q5
-  vadd.f32	q11, q8, q15
-  vsub.f32	q8, q8, q15
-  vadd.f32	q2, q12, q14
-  vsub.f32	q10, q0, q13
-  vadd.f32	q15, q0, q13
-  vadd.f32	q13, q9, q1
-  vsub.f32	q9, q9, q1
-  vsub.f32	q12, q12, q14
-  vadd.f32	q0, q11, q2
-  vadd.f32	q1, q13, q15
-  vsub.f32	q4, q11, q2
-  vadd.f32	q2, q8, q10  @
-  vsub.f32	q3, q9, q12  @
-  vst2.32 {q0,q1}, [r3, :128]!
-  vsub.f32	q5, q13, q15
-  vld1.32 {q14,q15}, [r10, :128]
-  vadd.f32	q7, q9, q12  @
-  vld1.32 {q12,q13}, [r8, :128]
-  vst2.32 {q2,q3}, [r5, :128]!
-  vld1.32 {q2,q3}, [r12, :128]!
-  vsub.f32	q6, q8, q10  @
-  vmul.f32	q8, q14, q2
-  vst2.32 {q4,q5}, [r7, :128]!
-  vmul.f32	q10, q15, q3
-  vmul.f32	q9, q13, q3
-  vmul.f32	q11, q12, q2
-  vmul.f32	q14, q14, q3
-  vst2.32 {q6,q7}, [r9, :128]!
-  vmul.f32	q15, q15, q2
-  vmul.f32	q12, q12, q3
-  vmul.f32	q13, q13, q2
-  vadd.f32	q10, q10, q8
-  vsub.f32	q11, q11, q9
-  vld1.32 {q8,q9}, [r4, :128]
-  vsub.f32	q14, q15, q14
-  vadd.f32	q15, q13, q12
-  vadd.f32	q13, q11, q10
-  vadd.f32	q12, q15, q14
-  vsub.f32	q15, q15, q14
-  vsub.f32	q14, q11, q10
-  vld1.32 {q10,q11}, [r6, :128]
-  vadd.f32	q0, q8, q13
-  vadd.f32	q1, q9, q12
-  vadd.f32	q2, q10, q15  @
-  vsub.f32	q3, q11, q14  @
-  vsub.f32	q4, q8, q13
-  vst2.32 {q0,q1}, [r4, :128]!
-  vsub.f32	q5, q9, q12
-  vsub.f32	q6, q10, q15  @
-  vst2.32 {q2,q3}, [r6, :128]!
-  vadd.f32	q7, q11, q14  @
-  vst2.32 {q4,q5}, [r8, :128]!
-  vst2.32 {q6,q7}, [r10, :128]!
-	bne neon_x8_t_loop	
-	
-	vldmia	sp!, {d8-d15}
-	pop	{r4, r5, r6, r7, r8, r9, r10, r11, pc}
+  push      {r4-r8, lr}
+  vpush     {q4-q7}
 
+  add       r4,  r0, r1, lsl #1  @ data2
+  add       r3,  r0, r1          @ data1
+  add       r6,  r4, r1, lsl #1  @ data4
+  add       r5,  r4, r1          @ data3
+  add       r8,  r6, r1, lsl #1  @ data6
+  add       r7,  r6, r1          @ data5
+  add       r12, r8, r1          @ data7
+
+neon_x8_t_loop:
+  vld1.32   {q2,  q3},  [r2,  :128]!
+  subs      r1,  r1,  #32
+  vld1.32   {q14, q15}, [r5,  :128]
+  vmul.f32  q12, q15, q2
+  vld1.32   {q10, q11}, [r4,  :128]
+  vmul.f32  q8,  q14, q3
+  vmul.f32  q13, q14, q2
+  vmul.f32  q9,  q10, q3
+  vmul.f32  q1,  q10, q2
+  vmul.f32  q0,  q11, q2
+  vmul.f32  q14, q11, q3
+  vmul.f32  q15, q15, q3
+  vsub.f32  q10, q12, q8
+  vld1.32   {q2,  q3},  [r2,  :128]!
+  vadd.f32  q11, q0,  q9
+  vadd.f32  q8,  q15, q13
+  vsub.f32  q9,  q1,  q14
+  vld1.32   {q12, q13}, [r3,  :128]
+  vsub.f32  q15, q11, q10
+  vsub.f32  q14, q9,  q8
+  vadd.f32  q4,  q12, q15
+  vsub.f32  q6,  q12, q15
+  vsub.f32  q5,  q13, q14
+  vadd.f32  q7,  q13, q14
+  vld1.32   {q14, q15}, [r8,  :128]
+  vld1.32   {q12, q13}, [r6,  :128]
+  vmul.f32  q1,  q14, q2
+  vmul.f32  q0,  q14, q3
+  vst1.32   {q4,  q5},  [r3,  :128]
+  vmul.f32  q14, q15, q3
+  vmul.f32  q4,  q15, q2
+  vadd.f32  q15, q9,  q8
+  vst1.32   {q6,  q7},  [r5,  :128]
+  vmul.f32  q8,  q12, q3
+  vmul.f32  q5,  q13, q3
+  vmul.f32  q12, q12, q2
+  vmul.f32  q9,  q13, q2
+  vadd.f32  q14, q14, q1
+  vsub.f32  q13, q4,  q0
+  vadd.f32  q0,  q9,  q8
+  vld1.32   {q8,  q9},  [r0,  :128]
+  vadd.f32  q1,  q11, q10
+  vsub.f32  q12, q12, q5
+  vadd.f32  q11, q8,  q15
+  vsub.f32  q8,  q8,  q15
+  vadd.f32  q2,  q12, q14
+  vsub.f32  q10, q0,  q13
+  vadd.f32  q15, q0,  q13
+  vadd.f32  q13, q9,  q1
+  vsub.f32  q9,  q9,  q1
+  vsub.f32  q12, q12, q14
+  vadd.f32  q0,  q11, q2
+  vadd.f32  q1,  q13, q15
+  vsub.f32  q4,  q11, q2
+  vadd.f32  q2,  q8,  q10
+  vsub.f32  q3,  q9,  q12
+  vst2.32   {q0,  q1},  [r0,  :128]!
+  vsub.f32  q5,  q13, q15
+  vld1.32   {q14, q15}, [r12, :128]
+  vadd.f32  q7,  q9,  q12
+  vld1.32   {q12, q13}, [r7,  :128]
+  vst2.32   {q2,  q3},  [r4,  :128]!
+  vld1.32   {q2,  q3},  [r2,  :128]!
+  vsub.f32  q6,  q8,  q10
+  vmul.f32  q8,  q14, q2
+  vst2.32   {q4,  q5},  [r6,  :128]!
+  vmul.f32  q10, q15, q3
+  vmul.f32  q9,  q13, q3
+  vmul.f32  q11, q12, q2
+  vmul.f32  q14, q14, q3
+  vst2.32   {q6,  q7},  [r8,  :128]!
+  vmul.f32  q15, q15, q2
+  vmul.f32  q12, q12, q3
+  vmul.f32  q13, q13, q2
+  vadd.f32  q10, q10, q8
+  vsub.f32  q11, q11, q9
+  vld1.32   {q8,  q9},  [r3,  :128]
+  vsub.f32  q14, q15, q14
+  vadd.f32  q15, q13, q12
+  vadd.f32  q13, q11, q10
+  vadd.f32  q12, q15, q14
+  vsub.f32  q15, q15, q14
+  vsub.f32  q14, q11, q10
+  vld1.32   {q10, q11}, [r5,  :128]
+  vadd.f32  q0,  q8,  q13
+  vadd.f32  q1,  q9,  q12
+  vadd.f32  q2,  q10, q15
+  vsub.f32  q3,  q11, q14
+  vsub.f32  q4,  q8,  q13
+  vst2.32   {q0,  q1},  [r3,  :128]!
+  vsub.f32  q5,  q9,  q12
+  vsub.f32  q6,  q10, q15
+  vst2.32   {q2,  q3},  [r5,  :128]!
+  vadd.f32  q7,  q11, q14
+  vst2.32   {q4,  q5},  [r7,  :128]!
+  vst2.32   {q6,  q7},  [r12, :128]!
+  bne       neon_x8_t_loop
 
+  vpop      {q4-q7}
+  pop       {r4-r8, pc}
diff --git a/src/neon_static_i.s b/src/neon_static_i.s
index d8f8d9c..20dd7c1 100644
--- a/src/neon_static_i.s
+++ b/src/neon_static_i.s
@@ -1,662 +1,614 @@
 /*
- 
- This file is part of FFTS -- The Fastest Fourier Transform in the South
-  
- Copyright (c) 2012, Anthony M. Blake <amb@anthonix.com>
- Copyright (c) 2012, The University of Waikato 
- 
- All rights reserved.
-
- Redistribution and use in source and binary forms, with or without
- modification, are permitted provided that the following conditions are met:
- 	* Redistributions of source code must retain the above copyright
- 		notice, this list of conditions and the following disclaimer.
- 	* Redistributions in binary form must reproduce the above copyright
- 		notice, this list of conditions and the following disclaimer in the
- 		documentation and/or other materials provided with the distribution.
- 	* Neither the name of the organization nor the
-	  names of its contributors may be used to endorse or promote products
- 		derived from this software without specific prior written permission.
-
- THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND
- ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED
- WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE
- DISCLAIMED. IN NO EVENT SHALL ANTHONY M. BLAKE BE LIABLE FOR ANY
- DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES
- (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES;
- LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND
- ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
- (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS
- SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
+
+This file is part of FFTS -- The Fastest Fourier Transform in the South
+
+Copyright (c) 2016, Jukka Ojanen <jukka.ojanen@kolumbus.fi>
+Copyright (c) 2012, Anthony M. Blake <amb@anthonix.com>
+Copyright (c) 2012, The University of Waikato 
+
+All rights reserved.
+
+Redistribution and use in source and binary forms, with or without
+modification, are permitted provided that the following conditions are met:
+* Redistributions of source code must retain the above copyright
+notice, this list of conditions and the following disclaimer.
+* Redistributions in binary form must reproduce the above copyright
+notice, this list of conditions and the following disclaimer in the
+documentation and/or other materials provided with the distribution.
+* Neither the name of the organization nor the
+names of its contributors may be used to endorse or promote products
+derived from this software without specific prior written permission.
+
+THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND
+ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED
+WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE
+DISCLAIMED. IN NO EVENT SHALL ANTHONY M. BLAKE BE LIABLE FOR ANY
+DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES
+(INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES;
+LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND
+ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
+(INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS
+SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 
 */
-	.fpu	neon
+  .fpu  neon
 
-	.align 4
+  .align 4
 #ifdef __APPLE__
-	.globl	_neon_static_e_i
+  .globl    _neon_static_e_i
 _neon_static_e_i:
 #else
-	.globl	neon_static_e_i
+  .globl    neon_static_e_i
 neon_static_e_i:
 #endif
-  push	{r4, r5, r6, r7, r8, r9, r10, r11, lr}
-  vstmdb	sp!, {d8-d15}
-  ldr lr, [r0, #40]  @ this is p->N
-  add	r3, r1, #0	
-  add	r7, r1, lr 
-  add	r5, r7, lr 
-  add	r10, r5, lr
-  add	r4, r10, lr	
-  add	r8, r4, lr
-  add	r6, r8, lr
-  add	r9, r6, lr
-  ldr	r12, [r0]
-  add	r1, r0, #0
-  add	r0, r2, #0	
-  ldr	r2, [r1, #16]   @ this is p->ee_ws
-  ldr	r11, [r1, #28]  @ this is p->i0	
-	
-	vld1.32	{d16, d17}, [r2, :128]
-_neon_ee_loop:
-	vld2.32 {q15}, [r10, :128]!
-	vld2.32 {q13}, [r8, :128]!
-	vld2.32 {q14}, [r7, :128]!
-	vld2.32 {q9},  [r4, :128]!
-	vld2.32 {q10}, [r3, :128]!
-	vld2.32 {q11}, [r6, :128]!
-	vld2.32 {q12}, [r5, :128]!
-	vsub.f32	q1, q14, q13
-	vld2.32 {q0}, [r9, :128]!
-	subs	r11, r11, #1
-	vsub.f32	q2, q0, q15
-	vadd.f32	q0, q0, q15
-	vmul.f32	d10, d2, d17
-	vmul.f32	d11, d3, d16
-	vmul.f32	d12, d3, d17
-	vmul.f32	d6, d4, d17  
-	vmul.f32	d7, d5, d16  
-	vmul.f32	d8, d4, d16  
-	vmul.f32	d9, d5, d17  
-	vmul.f32	d13, d2, d16
-	vsub.f32	d7, d7, d6
-	vadd.f32	d11, d11, d10
-	vsub.f32	q1, q12, q11
-	vsub.f32	q2, q10, q9
-	vadd.f32	d6, d9, d8
-	vadd.f32	q4, q14, q13
-	vadd.f32	q11, q12, q11
-	vadd.f32	q12, q10, q9
-	vsub.f32	d10, d13, d12
-	vsub.f32	q7, q4, q0
-	vsub.f32	q9, q12, q11
-	vsub.f32	q13, q5, q3
-	vadd.f32	d29, d5, d2  @
-	vadd.f32	q5, q5, q3
-	vadd.f32	q10, q4, q0
-	vadd.f32	q11, q12, q11
-	vsub.f32	d31, d5, d2  @
-	vsub.f32	d28, d4, d3  @
-	vadd.f32	d30, d4, d3  @
-	vadd.f32	d5, d19, d14  @
-	vadd.f32	d7, d31, d26  @
-	vadd.f32	q1, q14, q5
-	vadd.f32	q0, q11, q10
-	vsub.f32	d6, d30, d27  @
-	vsub.f32	d4, d18, d15  @
-	vsub.f32	d13, d19, d14  @
-	vadd.f32	d12, d18, d15  @
-	vsub.f32	d15, d31, d26  @
-	ldr r2, [r12], #4
-	vtrn.32	q1, q3
-	ldr lr, [r12], #4
-	vtrn.32	q0, q2
-	add r2, r0, r2, lsl #2
-	vsub.f32	q4, q11, q10
-	add lr, r0, lr, lsl #2
-	vsub.f32	q5, q14, q5
-	vadd.f32	d14, d30, d27 @
-	vst2.32 {q0,q1}, [r2, :128]!
-	vst2.32 {q2,q3}, [lr, :128]!
-	vtrn.32	q4, q6
-	vtrn.32	q5, q7
-	vst2.32 {q4,q5}, [r2, :128]!
-	vst2.32 {q6,q7}, [lr, :128]!
-	bne _neon_ee_loop
-
-	ldr	r11, [r1, #12]
-	vld2.32 {q9}, [r5, :128]! @tag2
-	vld2.32 {q13}, [r3, :128]! @tag0
-	vld2.32 {q12}, [r4, :128]! @tag1
-	vld2.32 {q0}, [r7, :128]! @tag4
-	vsub.f32	q11, q13, q12
-	vld2.32 {q8}, [r6, :128]! @tag3
-	vadd.f32	q12, q13, q12
-	vsub.f32	q10, q9, q8
-	vadd.f32	q8, q9, q8
-	vadd.f32	q9, q12, q8
-	vadd.f32	d9, d23, d20  @
-	vsub.f32	d11, d23, d20  @
-	vsub.f32	q8, q12, q8
-	vsub.f32	d8, d22, d21  @
-	vadd.f32	d10, d22, d21  @
-	ldr r2, [r12], #4
-	vld1.32	{d20, d21}, [r11, :128]
-	ldr lr, [r12], #4
-	vtrn.32	q9, q4
-	add r2, r0, r2, lsl #2
-	vtrn.32	q8, q5
-	add lr, r0, lr, lsl #2
-	vswp d9,d10
-	vst1.32 {d8,d9,d10,d11}, [lr, :128]!
-	vld2.32 {q13}, [r10, :128]! @tag7
-	vld2.32 {q15}, [r9, :128]! @tag6
-	vld2.32 {q11}, [r8, :128]! @tag5
-	vsub.f32	q14, q15, q13
-	vsub.f32	q12, q0, q11
-	vadd.f32	q11, q0, q11
-	vadd.f32	q13, q15, q13
-	vadd.f32	d13, d29, d24  @
-	vadd.f32	q15, q13, q11
-	vsub.f32	d12, d28, d25  @
-	vsub.f32	d15, d29, d24  @
-	vadd.f32	d14, d28, d25  @
-	vtrn.32	q15, q6
-	vsub.f32	q15, q13, q11
-	vtrn.32	q15, q7
-	vswp d13, d14
-	vst1.32 {d12,d13,d14,d15}, [lr, :128]!
-	vtrn.32	q13, q14
-	vtrn.32	q11, q12
-	vmul.f32	d24, d26, d21
-	vmul.f32	d28, d27, d20
-	vmul.f32	d25, d26, d20
-	vmul.f32	d26, d27, d21
-	vmul.f32	d27, d22, d21
-	vmul.f32	d30, d23, d20
-	vmul.f32	d29, d23, d21
-	vmul.f32	d22, d22, d20
-	vsub.f32	d21, d28, d24
-	vadd.f32	d20, d26, d25
-	vadd.f32	d25, d30, d27
-	vsub.f32	d24, d22, d29
-	vadd.f32	q11, q12, q10
-	vsub.f32	q10, q12, q10
-	vadd.f32	q0, q9, q11
-	vsub.f32	q2, q9, q11
-	vadd.f32	d3, d17, d20  @
-	vsub.f32	d7, d17, d20  @
-	vsub.f32	d2, d16, d21  @
-	vadd.f32	d6, d16, d21  @
-	vswp d1, d2
-	vswp d5, d6
-	vstmia r2!, {q0-q3}
-
-  add	r2, r7, #0	
-  add	r7, r9, #0	
-  add	r9, r2, #0	
-  add	r2, r8, #0	
-  add	r8, r10, #0	
-  add	r10, r2, #0	
-  ldr	r11, [r1, #32]  @ this is p->i1	
-	cmp r11, #0
-	beq _neon_oo_loop_exit
-_neon_oo_loop:
-	vld2.32 {q8}, [r6, :128]!
-	vld2.32 {q9}, [r5, :128]!
-	vld2.32 {q10}, [r4, :128]!
-	vld2.32 {q13}, [r3, :128]!
-	vadd.f32	q11, q9, q8
-	vsub.f32	q8, q9, q8
-	vsub.f32	q9, q13, q10
-	vadd.f32	q12, q13, q10
-	subs	r11, r11, #1
-	vld2.32 {q10}, [r7, :128]!
-	vld2.32 {q13}, [r9, :128]!
-	vsub.f32	q2, q12, q11
-	vsub.f32	d7, d19, d16  @
-	vadd.f32	d3, d19, d16  @
-	vadd.f32	d6, d18, d17  @
-	vsub.f32	d2, d18, d17  @
-	vld2.32 {q9}, [r8, :128]!
-	vld2.32 {q8}, [r10, :128]!
-	vadd.f32	q0, q12, q11
-	vadd.f32	q11, q13, q8
-	vadd.f32	q12, q10, q9
-	vsub.f32	q8, q13, q8
-	vsub.f32	q9, q10, q9
-	vsub.f32	q6, q12, q11
-	vadd.f32	q4, q12, q11
-	vtrn.32	q0, q2
-	ldr r2, [r12], #4
-	vsub.f32	d15, d19, d16  @
-	ldr lr, [r12], #4
-	vadd.f32	d11, d19, d16  @
-	vadd.f32	d14, d18, d17  @
-	vsub.f32	d10, d18, d17  @
-	add r2, r0, r2, lsl #2
-	vtrn.32	q1, q3
-	add lr, r0, lr, lsl #2
-	vst2.32 {q0,q1}, [r2, :128]!
-	vst2.32 {q2,q3}, [lr, :128]!
-	vtrn.32	q4, q6
-	vtrn.32	q5, q7
-	vst2.32 {q4,q5}, [r2, :128]!
-	vst2.32 {q6,q7}, [lr, :128]!
-	bne _neon_oo_loop
-_neon_oo_loop_exit:
-
-  add	r2, r3, #0
-  add	r3, r7, #0
-  add	r7, r2, #0
-  add	r2, r4, #0
-  add	r4, r8, #0
-  add	r8, r2, #0
-  add	r2, r5, #0
-  add	r5, r9, #0
-  add	r9, r2, #0
-  add	r2, r6, #0
-  add	r6, r10, #0
-  add	r10, r2, #0
-  add	r2, r9, #0	
-  add	r9, r10, #0	
-  add	r10, r2, #0	
-  ldr	r2, [r1, #16]
-  ldr	r11, [r1, #32]  @ this is p->i1	
-	cmp r11, #0
-	beq _neon_ee_loop2_exit
-
-	vld1.32	{d16, d17}, [r2, :128]
-_neon_ee_loop2:
-	vld2.32 {q15}, [r10, :128]!
-	vld2.32 {q13}, [r8, :128]!
-	vld2.32 {q14}, [r7, :128]!
-	vld2.32 {q9},  [r4, :128]!
-	vld2.32 {q10}, [r3, :128]!
-	vld2.32 {q11}, [r6, :128]!
-	vld2.32 {q12}, [r5, :128]!
-	vsub.f32	q1, q14, q13
-	vld2.32 {q0}, [r9, :128]!
-	subs	r11, r11, #1
-	vsub.f32	q2, q0, q15
-	vadd.f32	q0, q0, q15
-	vmul.f32	d10, d2, d17
-	vmul.f32	d11, d3, d16
-	vmul.f32	d12, d3, d17
-	vmul.f32	d6, d4, d17  
-	vmul.f32	d7, d5, d16  
-	vmul.f32	d8, d4, d16  
-	vmul.f32	d9, d5, d17  
-	vmul.f32	d13, d2, d16
-	vsub.f32	d7, d7, d6
-	vadd.f32	d11, d11, d10
-	vsub.f32	q1, q12, q11
-	vsub.f32	q2, q10, q9
-	vadd.f32	d6, d9, d8
-	vadd.f32	q4, q14, q13
-	vadd.f32	q11, q12, q11
-	vadd.f32	q12, q10, q9
-	vsub.f32	d10, d13, d12
-	vsub.f32	q7, q4, q0
-	vsub.f32	q9, q12, q11
-	vsub.f32	q13, q5, q3
-	vadd.f32	d29, d5, d2  @
-	vadd.f32	q5, q5, q3
-	vadd.f32	q10, q4, q0
-	vadd.f32	q11, q12, q11
-	vsub.f32	d31, d5, d2  @
-	vsub.f32	d28, d4, d3  @
-	vadd.f32	d30, d4, d3  @
-	vadd.f32	d5, d19, d14  @
-	vadd.f32	d7, d31, d26  @
-	vadd.f32	q1, q14, q5
-	vadd.f32	q0, q11, q10
-	vsub.f32	d6, d30, d27  @
-	vsub.f32	d4, d18, d15  @
-	vsub.f32	d13, d19, d14  @
-	vadd.f32	d12, d18, d15  @
-	vsub.f32	d15, d31, d26  @
-	ldr r2, [r12], #4
-	vtrn.32	q1, q3
-	ldr lr, [r12], #4
-	vtrn.32	q0, q2
-	add r2, r0, r2, lsl #2
-	vsub.f32	q4, q11, q10
-	add lr, r0, lr, lsl #2
-	vsub.f32	q5, q14, q5
-	vadd.f32	d14, d30, d27 @
-	vst2.32 {q0,q1}, [r2, :128]!
-	vst2.32 {q2,q3}, [lr, :128]!
-	vtrn.32	q4, q6
-	vtrn.32	q5, q7
-	vst2.32 {q4,q5}, [r2, :128]!
-	vst2.32 {q6,q7}, [lr, :128]!
-	bne _neon_ee_loop2
-_neon_ee_loop2_exit:
+  push      {r4-r12, lr}
+  vpush     {q4-q7}
+
+  ldr       lr,  [r0, #40]  @ p->N
+  ldr       r12, [r0     ]  @ p->offsets
+  ldr       r3,  [r0, #16]  @ p->ee_ws
+
+  add       r7,  r1,   lr
+  add       r5,  r1,   lr, lsl #1
+  add       r4,  r1,   lr, lsl #2
+  add       r10, r7,   lr, lsl #1
+  add       r8,  r7,   lr, lsl #2
+
+  ldr       r11, [r0, #28]  @ p->i0
 
-	vldmia	sp!, {d8-d15}
-	pop	{r4, r5, r6, r7, r8, r9, r10, r11, pc}
+  add       r6,  r4,   lr, lsl #1
+  add       r9,  r10,  lr, lsl #2
 
+  vld1.32   {d16, d17}, [r3, :128]
+_neon_ee_loop:
+  vld2.32   {q15}, [r10, :128]!
+  vld2.32   {q13}, [r8,  :128]!
+  vld2.32   {q14}, [r7,  :128]!
+  vld2.32   {q9},  [r4,  :128]!
+  vld2.32   {q10}, [r1,  :128]!
+  vld2.32   {q11}, [r6,  :128]!
+  vld2.32   {q12}, [r5,  :128]!
+  vsub.f32  q1,  q14, q13
+  vld2.32   {q0},  [r9,  :128]!
+  subs      r11, r11, #1
+  vsub.f32  q2,  q0,  q15
+  vadd.f32  q0,  q0,  q15
+  vmul.f32  d10, d2,  d17
+  vmul.f32  d11, d3,  d16
+  vmul.f32  d12, d3,  d17
+  vmul.f32  d6,  d4,  d17
+  vmul.f32  d7,  d5,  d16
+  vmul.f32  d8,  d4,  d16
+  vmul.f32  d9,  d5,  d17
+  vmul.f32  d13, d2,  d16
+  vsub.f32  d7,  d7,  d6
+  vadd.f32  d11, d11, d10
+  vsub.f32  q1,  q12, q11
+  vsub.f32  q2,  q10, q9
+  vadd.f32  d6,  d9,  d8
+  vadd.f32  q4,  q14, q13
+  vadd.f32  q11, q12, q11
+  vadd.f32  q12, q10, q9
+  vsub.f32  d10, d13, d12
+  vsub.f32  q7,  q4,  q0
+  vsub.f32  q9,  q12, q11
+  vsub.f32  q13, q5,  q3
+  vadd.f32  d29, d5,  d2
+  vadd.f32  q5,  q5,  q3
+  vadd.f32  q10, q4,  q0
+  vadd.f32  q11, q12, q11
+  vsub.f32  d31, d5,  d2
+  vsub.f32  d28, d4,  d3
+  vadd.f32  d30, d4,  d3
+  vadd.f32  d5,  d19, d14
+  vadd.f32  d7,  d31, d26
+  vadd.f32  q1,  q14, q5
+  vadd.f32  q0,  q11, q10
+  vsub.f32  d6,  d30, d27
+  vsub.f32  d4,  d18, d15
+  vsub.f32  d13, d19, d14
+  vadd.f32  d12, d18, d15
+  vsub.f32  d15, d31, d26
+  ldr       r3, [r12], #4
+  vtrn.32   q1,  q3
+  ldr       lr, [r12], #4
+  vtrn.32   q0,  q2
+  add       r3, r2, r3, lsl #2
+  vsub.f32  q4,  q11, q10
+  add       lr, r2, lr, lsl #2
+  vsub.f32  q5,  q14, q5
+  vadd.f32  d14, d30, d27
+  vst2.32   {q0, q1}, [r3, :128]!
+  vst2.32   {q2, q3}, [lr, :128]!
+  vtrn.32   q4,  q6
+  vtrn.32   q5,  q7
+  vst2.32   {q4, q5}, [r3, :128]!
+  vst2.32   {q6, q7}, [lr, :128]!
+  bne       _neon_ee_loop
+
+  ldr       r11,   [r0, #12]
+  vld2.32   {q9},  [r5, :128]!
+  vld2.32   {q13}, [r1, :128]!
+  vld2.32   {q12}, [r4, :128]!
+  vld2.32   {q0},  [r7, :128]!
+  vsub.f32  q11, q13, q12
+  vld2.32   {q8},  [r6, :128]!
+  vadd.f32  q12, q13, q12
+  vsub.f32  q10, q9,  q8
+  vadd.f32  q8,  q9,  q8
+  vadd.f32  q9,  q12, q8
+  vadd.f32  d9,  d23, d20
+  vsub.f32  d11, d23, d20
+  vsub.f32  q8,  q12, q8
+  vsub.f32  d8,  d22, d21
+  vadd.f32  d10, d22, d21
+  ldr       r3, [r12], #4
+  vld1.32   {d20, d21}, [r11, :128]
+  ldr       lr, [r12], #4
+  vtrn.32   q9,  q4
+  add       r3, r2, r3, lsl #2
+  vtrn.32   q8,  q5
+  add       lr, r2, lr, lsl #2
+  vswp      d9,  d10
+  vst1.32   {d8,d9,d10,d11}, [lr, :128]!
+  vld2.32   {q13}, [r10, :128]!
+  vld2.32   {q15}, [r9,  :128]!
+  vld2.32   {q11}, [r8,  :128]!
+  vsub.f32  q14, q15, q13
+  vsub.f32  q12, q0,  q11
+  vadd.f32  q11, q0,  q11
+  vadd.f32  q13, q15, q13
+  vadd.f32  d13, d29, d24
+  vadd.f32  q15, q13, q11
+  vsub.f32  d12, d28, d25
+  vsub.f32  d15, d29, d24
+  vadd.f32  d14, d28, d25
+  vtrn.32   q15, q6
+  vsub.f32  q15, q13, q11
+  vtrn.32   q15, q7
+  vswp d13, d14
+  vst1.32   {d12,d13,d14,d15}, [lr, :128]!
+  vtrn.32   q13, q14
+  vtrn.32   q11, q12
+  vmul.f32  d24, d26, d21
+  vmul.f32  d28, d27, d20
+  vmul.f32  d25, d26, d20
+  vmul.f32  d26, d27, d21
+  vmul.f32  d27, d22, d21
+  vmul.f32  d30, d23, d20
+  vmul.f32  d29, d23, d21
+  vmul.f32  d22, d22, d20
+  vsub.f32  d21, d28, d24
+  vadd.f32  d20, d26, d25
+  vadd.f32  d25, d30, d27
+  vsub.f32  d24, d22, d29
+  vadd.f32  q11, q12, q10
+  ldr       r11, [r0, #32]  @ p->i1
+  vsub.f32  q10, q12, q10
+  vadd.f32  q0,  q9,  q11
+  vsub.f32  q2,  q9,  q11
+  vadd.f32  d3,  d17, d20
+  vsub.f32  d7,  d17, d20
+  vsub.f32  d2,  d16, d21
+  vadd.f32  d6,  d16, d21
+  cmp       r11, #0
+  vswp      d1,  d2
+  vswp      d5,  d6
+  vstmia    r3!, {q0-q3}
+  beq       _neon_ee_loop2_exit
 
+_neon_oo_loop:
+  vld2.32   {q8},  [r6, :128]!
+  vld2.32   {q9},  [r5, :128]!
+  vld2.32   {q10}, [r4, :128]!
+  vld2.32   {q13}, [r1, :128]!
+  vadd.f32  q11, q9,  q8
+  vsub.f32  q8,  q9,  q8
+  vsub.f32  q9,  q13, q10
+  vadd.f32  q12, q13, q10
+  subs      r11, r11, #1
+  vld2.32   {q10}, [r9, :128]!
+  vld2.32   {q13}, [r7, :128]!
+  vsub.f32  q2, q12, q11
+  vsub.f32  d7, d19, d16
+  vadd.f32  d3, d19, d16
+  vadd.f32  d6, d18, d17
+  vsub.f32  d2, d18, d17
+  vld2.32   {q9}, [r10, :128]!
+  vld2.32   {q8}, [r8,  :128]!
+  vadd.f32  q0,  q12, q11
+  vadd.f32  q11, q13, q8
+  vadd.f32  q12, q10, q9
+  vsub.f32  q8,  q13, q8
+  vsub.f32  q9,  q10, q9
+  vsub.f32  q6,  q12, q11
+  vadd.f32  q4,  q12, q11
+  vtrn.32   q0,  q2
+  ldr       r3, [r12], #4
+  vsub.f32  d15, d19, d16
+  ldr       lr, [r12], #4
+  vadd.f32  d11, d19, d16
+  vadd.f32  d14, d18, d17
+  vsub.f32  d10, d18, d17
+  add       r3, r2, r3, lsl #2
+  vtrn.32   q1, q3
+  add       lr, r2, lr, lsl #2
+  vst2.32   {q0,q1}, [r3, :128]!
+  vst2.32   {q2,q3}, [lr, :128]!
+  vtrn.32   q4, q6
+  vtrn.32   q5, q7
+  vst2.32   {q4, q5}, [r3, :128]!
+  vst2.32   {q6, q7}, [lr, :128]!
+  bne       _neon_oo_loop
+
+  ldr       r3,  [r0, #16]  @ p->ee_ws
+  ldr       r11, [r0, #32]  @ p->i1
+  vld1.32   {d16, d17}, [r3, :128]
+_neon_ee_loop2:
+  vld2.32   {q15}, [r5,  :128]!
+  vld2.32   {q13}, [r4,  :128]!
+  vld2.32   {q14}, [r1,  :128]!
+  vld2.32   {q9},  [r10, :128]!
+  vld2.32   {q10}, [r9,  :128]!
+  vld2.32   {q11}, [r8,  :128]!
+  vld2.32   {q12}, [r7,  :128]!
+  vsub.f32  q1,  q14, q13
+  vld2.32   {q0}, [r6,   :128]!
+  subs      r11, r11, #1
+  vsub.f32  q2,  q0,  q15
+  vadd.f32  q0,  q0,  q15
+  vmul.f32  d10, d2,  d17
+  vmul.f32  d11, d3,  d16
+  vmul.f32  d12, d3,  d17
+  vmul.f32  d6,  d4,  d17
+  vmul.f32  d7,  d5,  d16
+  vmul.f32  d8,  d4,  d16
+  vmul.f32  d9,  d5,  d17
+  vmul.f32  d13, d2,  d16
+  vsub.f32  d7,  d7,  d6
+  vadd.f32  d11, d11, d10
+  vsub.f32  q1,  q12, q11
+  vsub.f32  q2,  q10, q9
+  vadd.f32  d6,  d9,  d8
+  vadd.f32  q4,  q14, q13
+  vadd.f32  q11, q12, q11
+  vadd.f32  q12, q10, q9
+  vsub.f32  d10, d13, d12
+  vsub.f32  q7,  q4,  q0
+  vsub.f32  q9,  q12, q11
+  vsub.f32  q13, q5,  q3
+  vadd.f32  d29, d5,  d2
+  vadd.f32  q5,  q5,  q3
+  vadd.f32  q10, q4,  q0
+  vadd.f32  q11, q12, q11
+  vsub.f32  d31, d5,  d2
+  vsub.f32  d28, d4,  d3
+  vadd.f32  d30, d4,  d3
+  vadd.f32  d5,  d19, d14
+  vadd.f32  d7,  d31, d26
+  vadd.f32  q1,  q14, q5
+  vadd.f32  q0,  q11, q10
+  vsub.f32  d6,  d30, d27
+  vsub.f32  d4,  d18, d15
+  vsub.f32  d13, d19, d14
+  vadd.f32  d12, d18, d15
+  vsub.f32  d15, d31, d26
+  ldr       r3,  [r12], #4
+  vtrn.32   q1,  q3
+  ldr       lr,  [r12], #4
+  vtrn.32   q0,  q2
+  add       r3,  r2, r3, lsl #2
+  vsub.f32  q4,  q11, q10
+  add       lr,  r2, lr, lsl #2
+  vsub.f32  q5,  q14, q5
+  vadd.f32  d14, d30, d27
+  vst2.32   {q0, q1}, [r3, :128]!
+  vst2.32   {q2, q3}, [lr, :128]!
+  vtrn.32   q4,  q6
+  vtrn.32   q5,  q7
+  vst2.32   {q4, q5}, [r3, :128]!
+  vst2.32   {q6, q7}, [lr, :128]!
+  bne       _neon_ee_loop2
 
+_neon_ee_loop2_exit:
+  vpop      {q4-q7}
+  pop       {r4-r12, pc}
 
-	.align 4
+  .align 4
 #ifdef __APPLE__
-	.globl	_neon_static_o_i
+  .globl    _neon_static_o_i
 _neon_static_o_i:
 #else
-	.globl	neon_static_o_i
+  .globl    neon_static_o_i
 neon_static_o_i:
 #endif
-  push	{r4, r5, r6, r7, r8, r9, r10, r11, lr}
-  vstmdb	sp!, {d8-d15}
-  ldr lr, [r0, #40]  @ this is p->N
-  add	r3, r1, #0	
-  add	r7, r1, lr 
-  add	r5, r7, lr 
-  add	r10, r5, lr
-  add	r4, r10, lr	
-  add	r8, r4, lr
-  add	r6, r8, lr
-  add	r9, r6, lr
-  ldr	r12, [r0]
-  add	r1, r0, #0
-  add	r0, r2, #0	
-  ldr	r2, [r1, #16]   @ this is p->ee_ws
-  ldr	r11, [r1, #28]  @ this is p->i0	
-	
-	vld1.32	{d16, d17}, [r2, :128]
+  push      {r4-r12, lr}
+  vpush     {q4-q7}
+
+  ldr       lr,  [r0, #40]  @ p->N
+  ldr       r12, [r0     ]  @ p->offsets
+  ldr       r3,  [r0, #16]  @ p->ee_ws
+
+  add       r7,  r1,   lr
+  add       r5,  r1,   lr, lsl #1
+  add       r4,  r1,   lr, lsl #2
+  add       r10, r7,   lr, lsl #1
+  add       r8,  r7,   lr, lsl #2
+
+  ldr       r11, [r0, #28]  @ p->i0
+
+  add       r6,  r4,   lr, lsl #1
+  add       r9,  r10,  lr, lsl #2
+
+  vld1.32   {d16, d17}, [r3, :128]
 _neon_ee_o_loop:
-	vld2.32 {q15}, [r10, :128]!
-	vld2.32 {q13}, [r8, :128]!
-	vld2.32 {q14}, [r7, :128]!
-	vld2.32 {q9},  [r4, :128]!
-	vld2.32 {q10}, [r3, :128]!
-	vld2.32 {q11}, [r6, :128]!
-	vld2.32 {q12}, [r5, :128]!
-	vsub.f32	q1, q14, q13
-	vld2.32 {q0}, [r9, :128]!
-	subs	r11, r11, #1
-	vsub.f32	q2, q0, q15
-	vadd.f32	q0, q0, q15
-	vmul.f32	d10, d2, d17
-	vmul.f32	d11, d3, d16
-	vmul.f32	d12, d3, d17
-	vmul.f32	d6, d4, d17  
-	vmul.f32	d7, d5, d16  
-	vmul.f32	d8, d4, d16  
-	vmul.f32	d9, d5, d17  
-	vmul.f32	d13, d2, d16
-	vsub.f32	d7, d7, d6
-	vadd.f32	d11, d11, d10
-	vsub.f32	q1, q12, q11
-	vsub.f32	q2, q10, q9
-	vadd.f32	d6, d9, d8
-	vadd.f32	q4, q14, q13
-	vadd.f32	q11, q12, q11
-	vadd.f32	q12, q10, q9
-	vsub.f32	d10, d13, d12
-	vsub.f32	q7, q4, q0
-	vsub.f32	q9, q12, q11
-	vsub.f32	q13, q5, q3
-	vadd.f32	d29, d5, d2  @
-	vadd.f32	q5, q5, q3
-	vadd.f32	q10, q4, q0
-	vadd.f32	q11, q12, q11
-	vsub.f32	d31, d5, d2  @
-	vsub.f32	d28, d4, d3  @
-	vadd.f32	d30, d4, d3  @
-	vadd.f32	d5, d19, d14  @
-	vadd.f32	d7, d31, d26  @
-	vadd.f32	q1, q14, q5
-	vadd.f32	q0, q11, q10
-	vsub.f32	d6, d30, d27  @
-	vsub.f32	d4, d18, d15  @
-	vsub.f32	d13, d19, d14  @
-	vadd.f32	d12, d18, d15  @
-	vsub.f32	d15, d31, d26  @
-	ldr r2, [r12], #4
-	vtrn.32	q1, q3
-	ldr lr, [r12], #4
-	vtrn.32	q0, q2
-	add r2, r0, r2, lsl #2
-	vsub.f32	q4, q11, q10
-	add lr, r0, lr, lsl #2
-	vsub.f32	q5, q14, q5
-	vadd.f32	d14, d30, d27 @
-	vst2.32 {q0,q1}, [r2, :128]!
-	vst2.32 {q2,q3}, [lr, :128]!
-	vtrn.32	q4, q6
-	vtrn.32	q5, q7
-	vst2.32 {q4,q5}, [r2, :128]!
-	vst2.32 {q6,q7}, [lr, :128]!
-	bne _neon_ee_o_loop
-
-  add	r2, r7, #0	
-  add	r7, r9, #0	
-  add	r9, r2, #0	
-  add	r2, r8, #0	
-  add	r8, r10, #0	
-  add	r10, r2, #0	
-  ldr	r11, [r1, #32]  @ this is p->i1	
-	cmp r11, #0
-	beq _neon_oo_o_loop_exit
+  vld2.32   {q15}, [r10, :128]!
+  vld2.32   {q13}, [r8,  :128]!
+  vld2.32   {q14}, [r7,  :128]!
+  vld2.32   {q9},  [r4,  :128]!
+  vld2.32   {q10}, [r1,  :128]!
+  vld2.32   {q11}, [r6,  :128]!
+  vld2.32   {q12}, [r5,  :128]!
+  vsub.f32  q1,  q14, q13
+  vld2.32   {q0},  [r9,  :128]!
+  subs      r11, r11, #1
+  vsub.f32  q2,  q0,  q15
+  vadd.f32  q0,  q0,  q15
+  vmul.f32  d10, d2,  d17
+  vmul.f32  d11, d3,  d16
+  vmul.f32  d12, d3,  d17
+  vmul.f32  d6,  d4,  d17
+  vmul.f32  d7,  d5,  d16
+  vmul.f32  d8,  d4,  d16
+  vmul.f32  d9,  d5,  d17
+  vmul.f32  d13, d2,  d16
+  vsub.f32  d7,  d7,  d6
+  vadd.f32  d11, d11, d10
+  vsub.f32  q1,  q12, q11
+  vsub.f32  q2,  q10, q9
+  vadd.f32  d6,  d9,  d8
+  vadd.f32  q4,  q14, q13
+  vadd.f32  q11, q12, q11
+  vadd.f32  q12, q10, q9
+  vsub.f32  d10, d13, d12
+  vsub.f32  q7,  q4,  q0
+  vsub.f32  q9,  q12, q11
+  vsub.f32  q13, q5,  q3
+  vadd.f32  d29, d5,  d2
+  vadd.f32  q5,  q5,  q3
+  vadd.f32  q10, q4,  q0
+  vadd.f32  q11, q12, q11
+  vsub.f32  d31, d5,  d2
+  vsub.f32  d28, d4,  d3
+  vadd.f32  d30, d4,  d3
+  vadd.f32  d5,  d19, d14
+  vadd.f32  d7,  d31, d26
+  vadd.f32  q1,  q14, q5
+  vadd.f32  q0,  q11, q10
+  vsub.f32  d6,  d30, d27
+  vsub.f32  d4,  d18, d15
+  vsub.f32  d13, d19, d14
+  vadd.f32  d12, d18, d15
+  vsub.f32  d15, d31, d26
+  ldr       r3, [r12], #4
+  vtrn.32   q1,  q3
+  ldr       lr, [r12], #4
+  vtrn.32   q0,  q2
+  add       r3, r2, r3, lsl #2
+  vsub.f32  q4,  q11, q10
+  add       lr, r2, lr, lsl #2
+  vsub.f32  q5,  q14, q5
+  vadd.f32  d14, d30, d27
+  vst2.32   {q0, q1}, [r3, :128]!
+  vst2.32   {q2, q3}, [lr, :128]!
+  vtrn.32   q4,  q6
+  vtrn.32   q5,  q7
+  vst2.32   {q4, q5}, [r3, :128]!
+  vst2.32   {q6, q7}, [lr, :128]!
+  bne       _neon_ee_o_loop
+
+  ldr       r11, [r0, #32]  @ p->i1
+  cmp       r11, #0
+  beq       _neon_oo_o_loop_exit
 _neon_oo_o_loop:
-	vld2.32 {q8}, [r6, :128]!
-	vld2.32 {q9}, [r5, :128]!
-	vld2.32 {q10}, [r4, :128]!
-	vld2.32 {q13}, [r3, :128]!
-	vadd.f32	q11, q9, q8
-	vsub.f32	q8, q9, q8
-	vsub.f32	q9, q13, q10
-	vadd.f32	q12, q13, q10
-	subs	r11, r11, #1
-	vld2.32 {q10}, [r7, :128]!
-	vld2.32 {q13}, [r9, :128]!
-	vsub.f32	q2, q12, q11
-	vsub.f32	d7, d19, d16  @
-	vadd.f32	d3, d19, d16  @
-	vadd.f32	d6, d18, d17  @
-	vsub.f32	d2, d18, d17  @
-	vld2.32 {q9}, [r8, :128]!
-	vld2.32 {q8}, [r10, :128]!
-	vadd.f32	q0, q12, q11
-	vadd.f32	q11, q13, q8
-	vadd.f32	q12, q10, q9
-	vsub.f32	q8, q13, q8
-	vsub.f32	q9, q10, q9
-	vsub.f32	q6, q12, q11
-	vadd.f32	q4, q12, q11
-	vtrn.32	q0, q2
-	ldr r2, [r12], #4
-	vsub.f32	d15, d19, d16  @
-	ldr lr, [r12], #4
-	vadd.f32	d11, d19, d16  @
-	vadd.f32	d14, d18, d17  @
-	vsub.f32	d10, d18, d17  @
-	add r2, r0, r2, lsl #2
-	vtrn.32	q1, q3
-	add lr, r0, lr, lsl #2
-	vst2.32 {q0,q1}, [r2, :128]!
-	vst2.32 {q2,q3}, [lr, :128]!
-	vtrn.32	q4, q6
-	vtrn.32	q5, q7
-	vst2.32 {q4,q5}, [r2, :128]!
-	vst2.32 {q6,q7}, [lr, :128]!
-	bne _neon_oo_o_loop
-_neon_oo_o_loop_exit:
+  vld2.32   {q8}, [r6, :128]!
+  vld2.32   {q9}, [r5, :128]!
+  vld2.32   {q10}, [r4, :128]!
+  vld2.32   {q13}, [r1, :128]!
+  vadd.f32  q11, q9,  q8
+  vsub.f32  q8,  q9,  q8
+  vsub.f32  q9,  q13, q10
+  vadd.f32  q12, q13, q10
+  subs      r11, r11, #1
+  vld2.32   {q10}, [r9, :128]!
+  vld2.32   {q13}, [r7, :128]!
+  vsub.f32  q2,  q12, q11
+  vsub.f32  d7,  d19, d16
+  vadd.f32  d3,  d19, d16
+  vadd.f32  d6,  d18, d17
+  vsub.f32  d2,  d18, d17
+  vld2.32   {q9}, [r10, :128]!
+  vld2.32   {q8}, [r8,  :128]!
+  vadd.f32  q0,  q12, q11
+  vadd.f32  q11, q13, q8
+  vadd.f32  q12, q10, q9
+  vsub.f32  q8,  q13, q8
+  vsub.f32  q9,  q10, q9
+  vsub.f32  q6,  q12, q11
+  vadd.f32  q4,  q12, q11
+  vtrn.32   q0,  q2
+  ldr       r3, [r12], #4
+  vsub.f32  d15, d19, d16
+  ldr       lr, [r12], #4
+  vadd.f32  d11, d19, d16
+  vadd.f32  d14, d18, d17
+  vsub.f32  d10, d18, d17
+  add       r3, r2, r3, lsl #2
+  vtrn.32   q1, q3
+  add       lr, r2, lr, lsl #2
+  vst2.32   {q0,q1}, [r3, :128]!
+  vst2.32   {q2,q3}, [lr, :128]!
+  vtrn.32   q4,  q6
+  vtrn.32   q5,  q7
+  vst2.32   {q4,q5}, [r3, :128]!
+  vst2.32   {q6,q7}, [lr, :128]!
+  bne       _neon_oo_o_loop
 
-	ldr	r11, [r1, #8]
-	vld1.32 {q8}, [r5, :128]!
-	vld1.32 {q10}, [r6, :128]!
-	vld2.32 {q11}, [r4, :128]!
-	vld2.32 {q13}, [r3, :128]!
-	vld2.32 {q15}, [r10, :128]!
-	vorr	d25, d17, d17
-	vorr	d24, d20, d20
-	vorr	d20, d16, d16
-	vsub.f32	q9, q13, q11
-	vadd.f32	q11, q13, q11
-	ldr r2, [r12], #4
-	vtrn.32	d24, d25
-	ldr lr, [r12], #4
-	vtrn.32	d20, d21
-	add r2, r0, r2, lsl #2
-	vsub.f32	q8, q10, q12
-	add lr, r0, lr, lsl #2
-	vadd.f32	q10, q10, q12
-	vadd.f32	q0, q11, q10
-	vadd.f32	d25, d19, d16  @
-	vsub.f32	d27, d19, d16  @
-	vsub.f32	q1, q11, q10
-	vsub.f32	d24, d18, d17  @
-	vadd.f32	d26, d18, d17  @
-	vtrn.32	q0, q12
-	vtrn.32	q1, q13
-	vld1.32	{d24, d25}, [r11, :128]
-	vswp d1, d2
-	vst1.32 {q0, q1}, [r2, :128]!
-	vld2.32 {q0}, [r9, :128]!
-	vadd.f32	q1, q0, q15
-	vld2.32 {q13}, [r8, :128]!
-	vld2.32 {q14}, [r7, :128]!
-	vsub.f32	q15, q0, q15
-	vsub.f32	q0, q14, q13
-	vadd.f32	q3, q14, q13
-	vadd.f32	q2, q3, q1
-	vadd.f32	d29, d1, d30  @
-	vsub.f32	d27, d1, d30  @
-	vsub.f32	q3, q3, q1
-	vsub.f32	d28, d0, d31  @
-	vadd.f32	d26, d0, d31  @
-	vtrn.32	q2, q14
-	vtrn.32	q3, q13
-	vswp d5, d6
-	vst1.32 {q2, q3}, [r2, :128]!
-	vtrn.32	q11, q9
-	vtrn.32	q10, q8
-	vmul.f32	d20, d18, d25
-	vmul.f32	d22, d19, d24
-	vmul.f32	d21, d19, d25
-	vmul.f32	d18, d18, d24
-	vmul.f32	d19, d16, d25
-	vmul.f32	d30, d17, d24
-	vmul.f32	d23, d16, d24
-	vmul.f32	d24, d17, d25
-	vadd.f32	d17, d22, d20
-	vsub.f32	d16, d18, d21
-	vsub.f32	d21, d30, d19
-	vadd.f32	d20, d24, d23
-	vadd.f32	q9, q8, q10
-	vsub.f32	q8, q8, q10
-	vadd.f32	q4, q14, q9
-	vsub.f32	q6, q14, q9
-	vadd.f32	d11, d27, d16  @
-	vsub.f32	d15, d27, d16  @
-	vsub.f32	d10, d26, d17  @
-	vadd.f32	d14, d26, d17  @
-	vswp d9, d10
-	vswp d13, d14
-	vstmia lr!, {q4-q7}
-
-
-  add	r2, r3, #0
-  add	r3, r7, #0
-  add	r7, r2, #0
-  add	r2, r4, #0
-  add	r4, r8, #0
-  add	r8, r2, #0
-  add	r2, r5, #0
-  add	r5, r9, #0
-  add	r9, r2, #0
-  add	r2, r6, #0
-  add	r6, r10, #0
-  add	r10, r2, #0
-  add	r2, r9, #0	
-  add	r9, r10, #0	
-  add	r10, r2, #0	
-  ldr	r2, [r1, #16]
-  ldr	r11, [r1, #32]  @ this is p->i1	
-	cmp r11, #0
-	beq _neon_ee_o_loop2_exit
-
-	vld1.32	{d16, d17}, [r2, :128]
+_neon_oo_o_loop_exit:
+  ldr       r11,   [r0, #8]
+  vld1.32   {q8},  [r5, :128]!
+  vld1.32   {q10}, [r6, :128]!
+  vld2.32   {q11}, [r4, :128]!
+  vld2.32   {q13}, [r1, :128]!
+  vld2.32   {q15}, [r8, :128]!
+  vorr      d25, d17, d17
+  vorr      d24, d20, d20
+  vorr      d20, d16, d16
+  vsub.f32  q9,  q13, q11
+  vadd.f32  q11, q13, q11
+  ldr       r3, [r12], #4
+  vtrn.32   d24, d25
+  ldr       lr, [r12], #4
+  vtrn.32   d20, d21
+  add       r3, r2, r3, lsl #2
+  vsub.f32  q8,  q10, q12
+  add       lr, r2, lr, lsl #2
+  vadd.f32  q10, q10, q12
+  vadd.f32  q0,  q11, q10
+  vadd.f32  d25, d19, d16
+  vsub.f32  d27, d19, d16
+  vsub.f32  q1,  q11, q10
+  vsub.f32  d24, d18, d17
+  vadd.f32  d26, d18, d17
+  vtrn.32   q0,  q12
+  vtrn.32   q1,  q13
+  vld1.32   {d24, d25}, [r11, :128]
+  vswp      d1, d2
+  vst1.32   {q0, q1}, [r3, :128]!
+  vld2.32   {q0}, [r7, :128]!
+  vadd.f32  q1, q0, q15
+  vld2.32   {q13}, [r10, :128]!
+  vld2.32   {q14}, [r9,  :128]!
+  vsub.f32  q15, q0,  q15
+  vsub.f32  q0,  q14, q13
+  vadd.f32  q3,  q14, q13
+  vadd.f32  q2,  q3,  q1
+  vadd.f32  d29, d1,  d30
+  vsub.f32  d27, d1,  d30
+  vsub.f32  q3,  q3,  q1
+  vsub.f32  d28, d0,  d31
+  vadd.f32  d26, d0,  d31
+  vtrn.32   q2,  q14
+  vtrn.32   q3,  q13
+  vswp      d5,  d6
+  vst1.32   {q2, q3}, [r3, :128]!
+  vtrn.32   q11, q9
+  vtrn.32   q10, q8
+  vmul.f32  d20, d18, d25
+  vmul.f32  d22, d19, d24
+  vmul.f32  d21, d19, d25
+  vmul.f32  d18, d18, d24
+  vmul.f32  d19, d16, d25
+  vmul.f32  d30, d17, d24
+  vmul.f32  d23, d16, d24
+  vmul.f32  d24, d17, d25
+  vadd.f32  d17, d22, d20
+  vsub.f32  d16, d18, d21
+  ldr       r3,  [r0, #16]  @ p->ee_ws
+  vsub.f32  d21, d30, d19
+  ldr       r11, [r0, #32]  @ p->i1
+  vadd.f32  d20, d24, d23
+  vadd.f32  q9,  q8,  q10
+  vsub.f32  q8,  q8,  q10
+  vadd.f32  q4,  q14, q9
+  vsub.f32  q6,  q14, q9
+  vadd.f32  d11, d27, d16
+  vsub.f32  d15, d27, d16
+  vsub.f32  d10, d26, d17
+  vadd.f32  d14, d26, d17
+  cmp       r11, #0
+  vswp      d9,  d10
+  vswp      d13, d14
+  vstmia    lr!, {q4-q7}
+  beq       _neon_ee_o_loop2_exit
+
+  vld1.32   {d16, d17}, [r3, :128]
 _neon_ee_o_loop2:
-	vld2.32 {q15}, [r10, :128]!
-	vld2.32 {q13}, [r8, :128]!
-	vld2.32 {q14}, [r7, :128]!
-	vld2.32 {q9},  [r4, :128]!
-	vld2.32 {q10}, [r3, :128]!
-	vld2.32 {q11}, [r6, :128]!
-	vld2.32 {q12}, [r5, :128]!
-	vsub.f32	q1, q14, q13
-	vld2.32 {q0}, [r9, :128]!
-	subs	r11, r11, #1
-	vsub.f32	q2, q0, q15
-	vadd.f32	q0, q0, q15
-	vmul.f32	d10, d2, d17
-	vmul.f32	d11, d3, d16
-	vmul.f32	d12, d3, d17
-	vmul.f32	d6, d4, d17  
-	vmul.f32	d7, d5, d16  
-	vmul.f32	d8, d4, d16  
-	vmul.f32	d9, d5, d17  
-	vmul.f32	d13, d2, d16
-	vsub.f32	d7, d7, d6
-	vadd.f32	d11, d11, d10
-	vsub.f32	q1, q12, q11
-	vsub.f32	q2, q10, q9
-	vadd.f32	d6, d9, d8
-	vadd.f32	q4, q14, q13
-	vadd.f32	q11, q12, q11
-	vadd.f32	q12, q10, q9
-	vsub.f32	d10, d13, d12
-	vsub.f32	q7, q4, q0
-	vsub.f32	q9, q12, q11
-	vsub.f32	q13, q5, q3
-	vadd.f32	d29, d5, d2  @
-	vadd.f32	q5, q5, q3
-	vadd.f32	q10, q4, q0
-	vadd.f32	q11, q12, q11
-	vsub.f32	d31, d5, d2  @
-	vsub.f32	d28, d4, d3  @
-	vadd.f32	d30, d4, d3  @
-	vadd.f32	d5, d19, d14  @
-	vadd.f32	d7, d31, d26  @
-	vadd.f32	q1, q14, q5
-	vadd.f32	q0, q11, q10
-	vsub.f32	d6, d30, d27  @
-	vsub.f32	d4, d18, d15  @
-	vsub.f32	d13, d19, d14  @
-	vadd.f32	d12, d18, d15  @
-	vsub.f32	d15, d31, d26  @
-	ldr r2, [r12], #4
-	vtrn.32	q1, q3
-	ldr lr, [r12], #4
-	vtrn.32	q0, q2
-	add r2, r0, r2, lsl #2
-	vsub.f32	q4, q11, q10
-	add lr, r0, lr, lsl #2
-	vsub.f32	q5, q14, q5
-	vadd.f32	d14, d30, d27 @
-	vst2.32 {q0,q1}, [r2, :128]!
-	vst2.32 {q2,q3}, [lr, :128]!
-	vtrn.32	q4, q6
-	vtrn.32	q5, q7
-	vst2.32 {q4,q5}, [r2, :128]!
-	vst2.32 {q6,q7}, [lr, :128]!
-	bne _neon_ee_o_loop2
-_neon_ee_o_loop2_exit:
+  vld2.32   {q15}, [r5,  :128]!
+  vld2.32   {q13}, [r4,  :128]!
+  vld2.32   {q14}, [r1,  :128]!
+  vld2.32   {q9},  [r10, :128]!
+  vld2.32   {q10}, [r9,  :128]!
+  vld2.32   {q11}, [r8,  :128]!
+  vld2.32   {q12}, [r7,  :128]!
+  vsub.f32  q1,  q14, q13
+  vld2.32   {q0},  [r6,  :128]!
+  subs      r11, r11, #1
+  vsub.f32  q2,  q0,  q15
+  vadd.f32  q0,  q0,  q15
+  vmul.f32  d10, d2,  d17
+  vmul.f32  d11, d3,  d16
+  vmul.f32  d12, d3,  d17
+  vmul.f32  d6,  d4,  d17
+  vmul.f32  d7,  d5,  d16
+  vmul.f32  d8,  d4,  d16
+  vmul.f32  d9,  d5,  d17
+  vmul.f32  d13, d2,  d16
+  vsub.f32  d7,  d7,  d6
+  vadd.f32  d11, d11, d10
+  vsub.f32  q1,  q12, q11
+  vsub.f32  q2,  q10, q9
+  vadd.f32  d6,  d9,  d8
+  vadd.f32  q4,  q14, q13
+  vadd.f32  q11, q12, q11
+  vadd.f32  q12, q10, q9
+  vsub.f32  d10, d13, d12
+  vsub.f32  q7,  q4,  q0
+  vsub.f32  q9,  q12, q11
+  vsub.f32  q13, q5,  q3
+  vadd.f32  d29, d5,  d2
+  vadd.f32  q5,  q5,  q3
+  vadd.f32  q10, q4,  q0
+  vadd.f32  q11, q12, q11
+  vsub.f32  d31, d5,  d2
+  vsub.f32  d28, d4,  d3
+  vadd.f32  d30, d4,  d3
+  vadd.f32  d5,  d19, d14
+  vadd.f32  d7,  d31, d26
+  vadd.f32  q1,  q14, q5
+  vadd.f32  q0,  q11, q10
+  vsub.f32  d6,  d30, d27
+  vsub.f32  d4,  d18, d15
+  vsub.f32  d13, d19, d14
+  vadd.f32  d12, d18, d15
+  vsub.f32  d15, d31, d26
+  ldr       r3, [r12], #4
+  vtrn.32   q1,  q3
+  ldr       lr, [r12], #4
+  vtrn.32   q0,  q2
+  add       r3, r2, r3, lsl #2
+  vsub.f32  q4, q11, q10
+  add       lr, r2, lr, lsl #2
+  vsub.f32  q5,  q14, q5
+  vadd.f32  d14, d30, d27
+  vst2.32   {q0, q1}, [r3, :128]!
+  vst2.32   {q2, q3}, [lr, :128]!
+  vtrn.32   q4,  q6
+  vtrn.32   q5,  q7
+  vst2.32   {q4, q5}, [r3, :128]!
+  vst2.32   {q6, q7}, [lr, :128]!
+  bne       _neon_ee_o_loop2
 
-	vldmia	sp!, {d8-d15}
-	pop	{r4, r5, r6, r7, r8, r9, r10, r11, pc}
+_neon_ee_o_loop2_exit:
+  vpop      {q4-q7}
+  pop       {r4-r12, pc}
 
-  .align 4
+  .align    4
 #ifdef __APPLE__
-  .globl _neon_static_x4_i
+  .globl    _neon_static_x4_i
 _neon_static_x4_i:
 #else
-  .globl neon_static_x4_i
+  .globl    neon_static_x4_i
 neon_static_x4_i:
 #endif
   add       r3, r0, #64
@@ -703,252 +655,244 @@ neon_static_x4_i:
   vpop      {q4-q7}
   bx        lr
 
-	.align 4
+  .align    4
 #ifdef __APPLE__
-	.globl	_neon_static_x8_i
+  .globl    _neon_static_x8_i
 _neon_static_x8_i:
 #else
-	.globl	neon_static_x8_i
+  .globl    neon_static_x8_i
 neon_static_x8_i:
 #endif
-  push	{r4, r5, r6, r7, r8, r9, r10, r11, lr}
-  vstmdb	sp!, {d8-d15}
-	mov r11, #0
-	add r3, r0, #0           @ data0
-	add r5, r0, r1, lsl #1   @ data2
-	add r4, r0, r1           @ data1
-	add r7, r5, r1, lsl #1   @ data4
-	add r6, r5, r1           @ data3
-	add r9, r7, r1, lsl #1   @ data6
-	add r8, r7, r1           @ data5
-	add r10, r9, r1          @ data7
-	add r12, r2, #0          @ LUT
-
-	sub r11, r11, r1, lsr #5
-neon_x8_loop: 
-  vld1.32 {q2,q3}, [r12, :128]!
-  vld1.32 {q14,q15}, [r6, :128]
-  vld1.32 {q10,q11}, [r5, :128]
-  adds	r11, r11, #1
-  vmul.f32	q12, q15, q2
-  vmul.f32	q8, q14, q3
-  vmul.f32	q13, q14, q2
-  vmul.f32	q9, q10, q3
-  vmul.f32	q1, q10, q2
-  vmul.f32	q0, q11, q2
-  vmul.f32	q14, q11, q3
-  vmul.f32	q15, q15, q3
-  vld1.32 {q2,q3}, [r12, :128]!
-  vsub.f32	q10, q12, q8
-  vadd.f32	q11, q0, q9
-  vadd.f32	q8, q15, q13
-  vld1.32 {q12,q13}, [r4, :128]
-  vsub.f32	q9, q1, q14
-  vsub.f32	q15, q11, q10
-  vsub.f32	q14, q9, q8
-  vsub.f32	q4, q12, q15  @
-  vadd.f32	q6, q12, q15  @ 
-  vadd.f32	q5, q13, q14  @
-  vsub.f32	q7, q13, q14  @
-  vld1.32 {q14,q15}, [r9, :128]
-  vld1.32 {q12,q13}, [r7, :128]
-  vmul.f32	q1, q14, q2
-  vmul.f32	q0, q14, q3
-  vst1.32 {q4,q5}, [r4, :128]
-  vmul.f32	q14, q15, q3
-  vmul.f32	q4, q15, q2
-  vadd.f32	q15, q9, q8
-  vst1.32 {q6,q7}, [r6, :128]
-  vmul.f32	q8, q12, q3
-  vmul.f32	q5, q13, q3
-  vmul.f32	q12, q12, q2
-  vmul.f32	q9, q13, q2
-  vadd.f32	q14, q14, q1
-  vsub.f32	q13, q4, q0
-  vadd.f32	q0, q9, q8
-  vld1.32 {q8,q9}, [r3, :128]
-  vadd.f32	q1, q11, q10
-  vsub.f32	q12, q12, q5
-  vadd.f32	q11, q8, q15
-  vsub.f32	q8, q8, q15
-  vadd.f32	q2, q12, q14
-  vsub.f32	q10, q0, q13
-  vadd.f32	q15, q0, q13
-  vadd.f32	q13, q9, q1
-  vsub.f32	q9, q9, q1
-  vsub.f32	q12, q12, q14
-  vadd.f32	q0, q11, q2
-  vadd.f32	q1, q13, q15
-  vsub.f32	q4, q11, q2
-  vsub.f32	q2, q8, q10  @
-  vadd.f32	q3, q9, q12  @
-  vst1.32 {q0,q1}, [r3, :128]!
-  vsub.f32	q5, q13, q15
-  vld1.32 {q14,q15}, [r10, :128]
-  vsub.f32	q7, q9, q12  @
-  vld1.32 {q12,q13}, [r8, :128]
-  vst1.32 {q2,q3}, [r5, :128]!
-  vld1.32 {q2,q3}, [r12, :128]!
-  vadd.f32	q6, q8, q10  @
-  vmul.f32	q8, q14, q2
-  vst1.32 {q4,q5}, [r7, :128]!
-  vmul.f32	q10, q15, q3
-  vmul.f32	q9, q13, q3
-  vmul.f32	q11, q12, q2
-  vmul.f32	q14, q14, q3
-  vst1.32 {q6,q7}, [r9, :128]!
-  vmul.f32	q15, q15, q2
-  vmul.f32	q12, q12, q3
-  vmul.f32	q13, q13, q2
-  vadd.f32	q10, q10, q8
-  vsub.f32	q11, q11, q9
-  vld1.32 {q8,q9}, [r4, :128]
-  vsub.f32	q14, q15, q14
-  vadd.f32	q15, q13, q12
-  vadd.f32	q13, q11, q10
-  vadd.f32	q12, q15, q14
-  vsub.f32	q15, q15, q14
-  vsub.f32	q14, q11, q10
-  vld1.32 {q10,q11}, [r6, :128]
-  vadd.f32	q0, q8, q13
-  vadd.f32	q1, q9, q12
-  vsub.f32	q2, q10, q15  @
-  vadd.f32	q3, q11, q14  @
-  vsub.f32	q4, q8, q13
-  vst1.32 {q0,q1}, [r4, :128]!
-  vsub.f32	q5, q9, q12
-  vadd.f32	q6, q10, q15  @
-  vst1.32 {q2,q3}, [r6, :128]!
-  vsub.f32	q7, q11, q14  @
-  vst1.32 {q4,q5}, [r8, :128]!
-  vst1.32 {q6,q7}, [r10, :128]!
-	bne neon_x8_loop	
-
-	vldmia	sp!, {d8-d15}
-	pop	{r4, r5, r6, r7, r8, r9, r10, r11, pc}
-
-	.align 4
+  push      {r4-r8, lr}
+  vpush     {q4-q7}
+
+  add       r4,  r0, r1, lsl #1  @ data2
+  add       r3,  r0, r1          @ data1
+  add       r6,  r4, r1, lsl #1  @ data4
+  add       r5,  r4, r1          @ data3
+  add       r8,  r6, r1, lsl #1  @ data6
+  add       r7,  r6, r1          @ data5
+  add       r12, r8, r1          @ data7
+
+neon_x8_loop:
+  vld1.32   {q2,  q3},  [r2,  :128]!
+  subs      r1,  r1,  #32
+  vld1.32   {q14, q15}, [r5,  :128]
+  vmul.f32  q12, q15, q2
+  vld1.32   {q10, q11}, [r4,  :128]
+  vmul.f32  q8,  q14, q3
+  vmul.f32  q13, q14, q2
+  vmul.f32  q9,  q10, q3
+  vmul.f32  q1,  q10, q2
+  vmul.f32  q0,  q11, q2
+  vmul.f32  q14, q11, q3
+  vmul.f32  q15, q15, q3
+  vsub.f32  q10, q12, q8
+  vld1.32   {q2,  q3},  [r2,  :128]!
+  vadd.f32  q11, q0,  q9
+  vadd.f32  q8,  q15, q13
+  vsub.f32  q9,  q1,  q14
+  vld1.32   {q12, q13}, [r3,  :128]
+  vsub.f32  q15, q11, q10
+  vsub.f32  q14, q9,  q8
+  vsub.f32  q4,  q12, q15
+  vadd.f32  q6,  q12, q15
+  vadd.f32  q5,  q13, q14
+  vsub.f32  q7,  q13, q14
+  vld1.32   {q14, q15}, [r8,  :128]
+  vld1.32   {q12, q13}, [r6,  :128]
+  vmul.f32  q1,  q14, q2
+  vmul.f32  q0,  q14, q3
+  vst1.32   {q4,  q5},  [r3,  :128]
+  vmul.f32  q14, q15, q3
+  vmul.f32  q4,  q15, q2
+  vadd.f32  q15, q9,  q8
+  vst1.32   {q6,  q7},  [r5,  :128]
+  vmul.f32  q8,  q12, q3
+  vmul.f32  q5,  q13, q3
+  vmul.f32  q12, q12, q2
+  vmul.f32  q9,  q13, q2
+  vadd.f32  q14, q14, q1
+  vsub.f32  q13, q4,  q0
+  vadd.f32  q0,  q9,  q8
+  vld1.32   {q8,  q9},  [r0,  :128]
+  vadd.f32  q1,  q11, q10
+  vsub.f32  q12, q12, q5
+  vadd.f32  q11, q8,  q15
+  vsub.f32  q8,  q8,  q15
+  vadd.f32  q2,  q12, q14
+  vsub.f32  q10, q0,  q13
+  vadd.f32  q15, q0,  q13
+  vadd.f32  q13, q9,  q1
+  vsub.f32  q9,  q9,  q1
+  vsub.f32  q12, q12, q14
+  vadd.f32  q0,  q11, q2
+  vadd.f32  q1,  q13, q15
+  vsub.f32  q4,  q11, q2
+  vsub.f32  q2,  q8,  q10
+  vadd.f32  q3,  q9,  q12
+  vst1.32   {q0,  q1},  [r0,  :128]!
+  vsub.f32  q5,  q13, q15
+  vld1.32   {q14, q15}, [r12, :128]
+  vsub.f32  q7,  q9,  q12
+  vld1.32   {q12, q13}, [r7,  :128]
+  vst1.32   {q2,  q3},  [r4,  :128]!
+  vld1.32   {q2,  q3},  [r2,  :128]!
+  vadd.f32  q6,  q8,  q10
+  vmul.f32  q8,  q14, q2
+  vst1.32   {q4,  q5},  [r6,  :128]!
+  vmul.f32  q10, q15, q3
+  vmul.f32  q9,  q13, q3
+  vmul.f32  q11, q12, q2
+  vmul.f32  q14, q14, q3
+  vst1.32   {q6,  q7},  [r8,  :128]!
+  vmul.f32  q15, q15, q2
+  vmul.f32  q12, q12, q3
+  vmul.f32  q13, q13, q2
+  vadd.f32  q10, q10, q8
+  vsub.f32  q11, q11, q9
+  vld1.32   {q8,  q9},  [r3,  :128]
+  vsub.f32  q14, q15, q14
+  vadd.f32  q15, q13, q12
+  vadd.f32  q13, q11, q10
+  vadd.f32  q12, q15, q14
+  vsub.f32  q15, q15, q14
+  vsub.f32  q14, q11, q10
+  vld1.32   {q10, q11}, [r5,  :128]
+  vadd.f32  q0,  q8,  q13
+  vadd.f32  q1,  q9,  q12
+  vsub.f32  q2,  q10, q15
+  vadd.f32  q3,  q11, q14
+  vsub.f32  q4,  q8,  q13
+  vst1.32   {q0,  q1},  [r3,  :128]!
+  vsub.f32  q5,  q9,  q12
+  vadd.f32  q6,  q10, q15
+  vst1.32   {q2,  q3},  [r5,  :128]!
+  vsub.f32  q7,  q11, q14
+  vst1.32   {q4,  q5},  [r7,  :128]!
+  vst1.32   {q6,  q7},  [r12, :128]!
+  bne       neon_x8_loop
+
+  vpop      {q4-q7}
+  pop       {r4-r8, pc}
+
+  .align    4
 #ifdef __APPLE__
-	.globl	_neon_static_x8_t_i
+  .globl    _neon_static_x8_t_i
 _neon_static_x8_t_i:
 #else
-	.globl	neon_static_x8_t_i
+  .globl    neon_static_x8_t_i
 neon_static_x8_t_i:
 #endif
-  push	{r4, r5, r6, r7, r8, r9, r10, r11, lr}
-  vstmdb	sp!, {d8-d15}
-	mov r11, #0
-	add r3, r0, #0           @ data0
-	add r5, r0, r1, lsl #1   @ data2
-	add r4, r0, r1           @ data1
-	add r7, r5, r1, lsl #1   @ data4
-	add r6, r5, r1           @ data3
-	add r9, r7, r1, lsl #1   @ data6
-	add r8, r7, r1           @ data5
-	add r10, r9, r1          @ data7
-	add r12, r2, #0          @ LUT
-
-	sub r11, r11, r1, lsr #5
-neon_x8_t_loop: 
-  vld1.32 {q2,q3}, [r12, :128]!
-  vld1.32 {q14,q15}, [r6, :128]
-  vld1.32 {q10,q11}, [r5, :128]
-  adds	r11, r11, #1
-  vmul.f32	q12, q15, q2
-  vmul.f32	q8, q14, q3
-  vmul.f32	q13, q14, q2
-  vmul.f32	q9, q10, q3
-  vmul.f32	q1, q10, q2
-  vmul.f32	q0, q11, q2
-  vmul.f32	q14, q11, q3
-  vmul.f32	q15, q15, q3
-  vld1.32 {q2,q3}, [r12, :128]!
-  vsub.f32	q10, q12, q8
-  vadd.f32	q11, q0, q9
-  vadd.f32	q8, q15, q13
-  vld1.32 {q12,q13}, [r4, :128]
-  vsub.f32	q9, q1, q14
-  vsub.f32	q15, q11, q10
-  vsub.f32	q14, q9, q8
-  vsub.f32	q4, q12, q15  @
-  vadd.f32	q6, q12, q15  @
-  vadd.f32	q5, q13, q14  @
-  vsub.f32	q7, q13, q14  @
-  vld1.32 {q14,q15}, [r9, :128]
-  vld1.32 {q12,q13}, [r7, :128]
-  vmul.f32	q1, q14, q2
-  vmul.f32	q0, q14, q3
-  vst1.32 {q4,q5}, [r4, :128]
-  vmul.f32	q14, q15, q3
-  vmul.f32	q4, q15, q2
-  vadd.f32	q15, q9, q8
-  vst1.32 {q6,q7}, [r6, :128]
-  vmul.f32	q8, q12, q3
-  vmul.f32	q5, q13, q3
-  vmul.f32	q12, q12, q2
-  vmul.f32	q9, q13, q2
-  vadd.f32	q14, q14, q1
-  vsub.f32	q13, q4, q0
-  vadd.f32	q0, q9, q8
-  vld1.32 {q8,q9}, [r3, :128]
-  vadd.f32	q1, q11, q10
-  vsub.f32	q12, q12, q5
-  vadd.f32	q11, q8, q15
-  vsub.f32	q8, q8, q15
-  vadd.f32	q2, q12, q14
-  vsub.f32	q10, q0, q13
-  vadd.f32	q15, q0, q13
-  vadd.f32	q13, q9, q1
-  vsub.f32	q9, q9, q1
-  vsub.f32	q12, q12, q14
-  vadd.f32	q0, q11, q2
-  vadd.f32	q1, q13, q15
-  vsub.f32	q4, q11, q2
-  vsub.f32	q2, q8, q10  @
-  vadd.f32	q3, q9, q12  @
-  vst2.32 {q0,q1}, [r3, :128]!
-  vsub.f32	q5, q13, q15
-  vld1.32 {q14,q15}, [r10, :128]
-  vsub.f32	q7, q9, q12  @
-  vld1.32 {q12,q13}, [r8, :128]
-  vst2.32 {q2,q3}, [r5, :128]!
-  vld1.32 {q2,q3}, [r12, :128]!
-  vadd.f32	q6, q8, q10  @
-  vmul.f32	q8, q14, q2
-  vst2.32 {q4,q5}, [r7, :128]!
-  vmul.f32	q10, q15, q3
-  vmul.f32	q9, q13, q3
-  vmul.f32	q11, q12, q2
-  vmul.f32	q14, q14, q3
-  vst2.32 {q6,q7}, [r9, :128]!
-  vmul.f32	q15, q15, q2
-  vmul.f32	q12, q12, q3
-  vmul.f32	q13, q13, q2
-  vadd.f32	q10, q10, q8
-  vsub.f32	q11, q11, q9
-  vld1.32 {q8,q9}, [r4, :128]
-  vsub.f32	q14, q15, q14
-  vadd.f32	q15, q13, q12
-  vadd.f32	q13, q11, q10
-  vadd.f32	q12, q15, q14
-  vsub.f32	q15, q15, q14
-  vsub.f32	q14, q11, q10
-  vld1.32 {q10,q11}, [r6, :128]
-  vadd.f32	q0, q8, q13
-  vadd.f32	q1, q9, q12
-  vsub.f32	q2, q10, q15  @
-  vadd.f32	q3, q11, q14  @
-  vsub.f32	q4, q8, q13
-  vst2.32 {q0,q1}, [r4, :128]!
-  vsub.f32	q5, q9, q12
-  vadd.f32	q6, q10, q15  @
-  vst2.32 {q2,q3}, [r6, :128]!
-  vsub.f32	q7, q11, q14  @
-  vst2.32 {q4,q5}, [r8, :128]!
-  vst2.32 {q6,q7}, [r10, :128]!
-	bne neon_x8_t_loop	
-	
-	vldmia	sp!, {d8-d15}
-	pop	{r4, r5, r6, r7, r8, r9, r10, r11, pc}
+  push      {r4-r8, lr}
+  vpush     {q4-q7}
 
+  add       r4,  r0, r1, lsl #1  @ data2
+  add       r3,  r0, r1          @ data1
+  add       r6,  r4, r1, lsl #1  @ data4
+  add       r5,  r4, r1          @ data3
+  add       r8,  r6, r1, lsl #1  @ data6
+  add       r7,  r6, r1          @ data5
+  add       r12, r8, r1          @ data7
+
+neon_x8_t_loop:
+  vld1.32   {q2,  q3},  [r2, :128]!
+  subs      r1,  r1,  #32
+  vld1.32   {q14, q15}, [r5, :128]
+  vmul.f32  q12, q15, q2
+  vld1.32   {q10, q11}, [r4, :128]
+  vmul.f32  q8,  q14, q3
+  vmul.f32  q13, q14, q2
+  vmul.f32  q9,  q10, q3
+  vmul.f32  q1,  q10, q2
+  vmul.f32  q0,  q11, q2
+  vmul.f32  q14, q11, q3
+  vmul.f32  q15, q15, q3
+  vsub.f32  q10, q12, q8
+  vld1.32   {q2,  q3},  [r2, :128]!
+  vadd.f32  q11, q0,  q9
+  vadd.f32  q8,  q15, q13
+  vsub.f32  q9,  q1,  q14
+  vld1.32   {q12, q13}, [r3, :128]
+  vsub.f32  q15, q11, q10
+  vsub.f32  q14, q9,  q8
+  vsub.f32  q4,  q12, q15
+  vadd.f32  q6,  q12, q15
+  vadd.f32  q5,  q13, q14
+  vsub.f32  q7,  q13, q14
+  vld1.32   {q14, q15}, [r8, :128]
+  vld1.32   {q12, q13}, [r6, :128]
+  vmul.f32  q1,  q14, q2
+  vmul.f32  q0,  q14, q3
+  vst1.32   {q4,  q5},  [r3, :128]
+  vmul.f32  q14, q15, q3
+  vmul.f32  q4,  q15, q2
+  vadd.f32  q15, q9,  q8
+  vst1.32   {q6,  q7},  [r5, :128]
+  vmul.f32  q8,  q12, q3
+  vmul.f32  q5,  q13, q3
+  vmul.f32  q12, q12, q2
+  vmul.f32  q9,  q13, q2
+  vadd.f32  q14, q14, q1
+  vsub.f32  q13, q4,  q0
+  vadd.f32  q0,  q9,  q8
+  vld1.32   {q8,  q9},  [r0, :128]
+  vadd.f32  q1,  q11, q10
+  vsub.f32  q12, q12, q5
+  vadd.f32  q11, q8,  q15
+  vsub.f32  q8,  q8,  q15
+  vadd.f32  q2,  q12, q14
+  vsub.f32  q10, q0,  q13
+  vadd.f32  q15, q0,  q13
+  vadd.f32  q13, q9,  q1
+  vsub.f32  q9,  q9,  q1
+  vsub.f32  q12, q12, q14
+  vadd.f32  q0,  q11, q2
+  vadd.f32  q1,  q13, q15
+  vsub.f32  q4,  q11, q2
+  vsub.f32  q2,  q8,  q10
+  vadd.f32  q3,  q9,  q12
+  vst2.32   {q0,  q1},  [r0, :128]!
+  vsub.f32  q5,  q13, q15
+  vld1.32   {q14, q15}, [r12,:128]
+  vsub.f32  q7,  q9,  q12
+  vld1.32   {q12, q13}, [r7, :128]
+  vst2.32   {q2,  q3},  [r4, :128]!
+  vld1.32   {q2,  q3},  [r2, :128]!
+  vadd.f32  q6,  q8,  q10
+  vmul.f32  q8,  q14, q2
+  vst2.32   {q4,  q5},  [r6, :128]!
+  vmul.f32  q10, q15, q3
+  vmul.f32  q9,  q13, q3
+  vmul.f32  q11, q12, q2
+  vmul.f32  q14, q14, q3
+  vst2.32   {q6,  q7},  [r8, :128]!
+  vmul.f32  q15, q15, q2
+  vmul.f32  q12, q12, q3
+  vmul.f32  q13, q13, q2
+  vadd.f32  q10, q10, q8
+  vsub.f32  q11, q11, q9
+  vld1.32   {q8,  q9},  [r3, :128]
+  vsub.f32  q14, q15, q14
+  vadd.f32  q15, q13, q12
+  vadd.f32  q13, q11, q10
+  vadd.f32  q12, q15, q14
+  vsub.f32  q15, q15, q14
+  vsub.f32  q14, q11, q10
+  vld1.32   {q10, q11}, [r5, :128]
+  vadd.f32  q0,  q8,  q13
+  vadd.f32  q1,  q9,  q12
+  vsub.f32  q2,  q10, q15
+  vadd.f32  q3,  q11, q14
+  vsub.f32  q4,  q8,  q13
+  vst2.32   {q0,  q1},  [r3, :128]!
+  vsub.f32  q5,  q9,  q12
+  vadd.f32  q6,  q10, q15
+  vst2.32   {q2,  q3},  [r5, :128]!
+  vsub.f32  q7,  q11, q14
+  vst2.32   {q4,  q5},  [r7, :128]!
+  vst2.32   {q6,  q7},  [r12,:128]!
+  bne       neon_x8_t_loop
 
+  vpop      {q4-q7}
+  pop       {r4-r8, pc}
-- 
cgit v1.1