+- +-
Say hello if visiting :) by Gecko
11 Jan 2023, 07:43:05 pm

Seti is down again by Mike
09 Aug 2017, 10:02:44 am

Some considerations regarding OpenCL MultiBeam app tuning from algorithm view by Raistmer
11 Dec 2016, 06:30:56 am

Loading APU to the limit: performance considerations by Mike
05 Nov 2016, 06:49:26 am

Better sleep on Windows - new round by Raistmer
26 Aug 2016, 02:02:31 pm

Author Topic: AVX Optimized App Development  (Read 132771 times)

Offline KarVi

  • Alpha Tester
  • Knight Templar
  • ***
  • Posts: 252
Re: AVX Optimized App Development
« Reply #135 on: 23 May 2012, 12:10:10 am »
FX8150@4,5

=========================================================
Ftst_v7_J53_Chirponly started.

Optimal function choices:
--------------------------------------------------------
                            name   timing   error
--------------------------------------------------------
                     v_ChirpData 0.007298 0.00000  test
                   fpu_ChirpData 0.013822 0.00000  test
               fpu_opt_ChirpData 0.007152 0.00000  test
             sse1_ChirpData_ak8e 0.005673 0.00000  test
              sse2_ChirpData_ak8 0.003697 0.00000  test
              sse3_ChirpData_ak8 0.003599 0.00000  test
                 avx_ChirpData_a 0.003088 0.00000  test
                 avx_ChirpData_b 0.003041 0.00000  test
                 avx_ChirpData_c 0.003297 0.00000  test
                 avx_ChirpData_d 0.003219 0.00000  test
                 avx_ChirpData_e 0.003142 0.00000  test
                 avx_ChirpData_f 0.002986 0.00000  test
                 avx_ChirpData_g 0.002915 0.00000  test
                 avx_ChirpData_h 0.003588 0.00000  test
                 avx_ChirpData_i 0.003172 0.00000  test
            avx_fma4_ChirpData_a 0.002730 0.00000  test
           avx_fma4_ChirpData_d4 0.002747 0.00000  test
           avx_fma4_ChirpData_d6 0.002718 0.00000  test
           avx_fma4_ChirpData_d8 0.002710 0.00000  test
           avx_fma4_ChirpData_d8 0.002710 0.00000  choice

            Second run

                     v_ChirpData 0.007239 0.00000  test
                   fpu_ChirpData 0.013803 0.00000  test
               fpu_opt_ChirpData 0.007090 0.00000  test
             sse1_ChirpData_ak8e 0.005697 0.00000  test
              sse2_ChirpData_ak8 0.003676 0.00000  test
              sse3_ChirpData_ak8 0.003612 0.00000  test
                 avx_ChirpData_a 0.003079 0.00000  test
                 avx_ChirpData_b 0.003044 0.00000  test
                 avx_ChirpData_c 0.003298 0.00000  test
                 avx_ChirpData_d 0.003225 0.00000  test
                 avx_ChirpData_e 0.003142 0.00000  test
                 avx_ChirpData_f 0.002985 0.00000  test
                 avx_ChirpData_g 0.002933 0.00000  test
                 avx_ChirpData_h 0.003579 0.00000  test
                 avx_ChirpData_i 0.003169 0.00000  test
            avx_fma4_ChirpData_a 0.002730 0.00000  test
           avx_fma4_ChirpData_d4 0.002754 0.00000  test
           avx_fma4_ChirpData_d6 0.002718 0.00000  test
           avx_fma4_ChirpData_d8 0.002713 0.00000  test
           avx_fma4_ChirpData_d8 0.002713 0.00000  choice

            Third run

                     v_ChirpData 0.007309 0.00000  test
                   fpu_ChirpData 0.013824 0.00000  test
               fpu_opt_ChirpData 0.007157 0.00000  test
             sse1_ChirpData_ak8e 0.005677 0.00000  test
              sse2_ChirpData_ak8 0.003688 0.00000  test
              sse3_ChirpData_ak8 0.003599 0.00000  test
                 avx_ChirpData_a 0.003090 0.00000  test
                 avx_ChirpData_b 0.003043 0.00000  test
                 avx_ChirpData_c 0.003296 0.00000  test
                 avx_ChirpData_d 0.003227 0.00000  test
                 avx_ChirpData_e 0.003148 0.00000  test
                 avx_ChirpData_f 0.002990 0.00000  test
                 avx_ChirpData_g 0.002925 0.00000  test
                 avx_ChirpData_h 0.003579 0.00000  test
                 avx_ChirpData_i 0.003172 0.00000  test
            avx_fma4_ChirpData_a 0.002746 0.00000  test
           avx_fma4_ChirpData_d4 0.002750 0.00000  test
           avx_fma4_ChirpData_d6 0.002717 0.00000  test
           avx_fma4_ChirpData_d8 0.002710 0.00000  test
           avx_fma4_ChirpData_d8 0.002710 0.00000  choice

                   Test duration     8.41 seconds

Ftst_v7 completed successfully.
A smile is the shortest distance between two peoble (Victor Borge).

Offline Josef W. Segur

  • Janitor o' the Board
  • Knight who says 'Ni!'
  • *****
  • Posts: 3112
Re: AVX Optimized App Development
« Reply #136 on: 24 May 2012, 11:36:14 pm »
That difference in how the FX-4100 and FX-8150 react to prefetch distance is still fascinating.

For J54 I've modified the test framework again, each test will show the minimum time taken by one iteration. That will give some indication of how much variance there is.

I've also added an e variant for avx_fma4 which is exploring the capability doing 128 bit operations rather than 256 like all the other avx tests. I expect it to be faster than the existing SSE3 test both because it's using fma4 and because with avx enabled there are 3 operand forms of the instructions. With old-style SSE3 an operation like a = b + c actually had to copy b to a then add c. The 3 operand form does it in a single operation. I doubt the e variant will challenge the 256 bit versions, but it's possible. An AMD engineer chose to have the GCC autovectorizer produce 128 bit AVX and FMA4 for Bulldozer v1 because that outperformed 256 bit code on some of the SPEC benchmarks.
                                         Joe

Offline arkayn

  • Janitor o' the Board
  • Knight who says 'Ni!'
  • *****
  • Posts: 1230
  • Aaaarrrrgggghhhh
    • My Little Place On The Internet
Re: AVX Optimized App Development
« Reply #137 on: 25 May 2012, 12:25:32 am »
FX4100 @3.6
First run BOINC running on GTX460
=========================================================
Ftst_v7_J54_Chirponly started.

Optimal function choices:
--------------------------------------------------------
                            name   timing   error
--------------------------------------------------------
                     v_ChirpData 0.009313 0.00000  test    mintime= 0.004975
                   fpu_ChirpData 0.017663 0.00000  test    mintime= 0.017547
               fpu_opt_ChirpData 0.009177 0.00000  test    mintime= 0.004658
             sse1_ChirpData_ak8e 0.007268 0.00000  test    mintime= 0.007189
              sse2_ChirpData_ak8 0.004597 0.00000  test    mintime= 0.004549
              sse3_ChirpData_ak8 0.004520 0.00000  test    mintime= 0.004419
                 avx_ChirpData_a 0.003807 0.00000  test    mintime= 0.003769
                 avx_ChirpData_b 0.003873 0.00000  test    mintime= 0.003792
                 avx_ChirpData_c 0.004119 0.00000  test    mintime= 0.004081
                 avx_ChirpData_d 0.004026 0.00000  test    mintime= 0.003959
                 avx_ChirpData_e 0.003916 0.00000  test    mintime= 0.003878
                 avx_ChirpData_f 0.003722 0.00000  test    mintime= 0.003698
                 avx_ChirpData_g 0.003716 0.00000  test    mintime= 0.003637
                 avx_ChirpData_h 0.004431 0.00000  test    mintime= 0.004382
                 avx_ChirpData_i 0.003890 0.00000  test    mintime= 0.003846
            avx_fma4_ChirpData_a 0.003380 0.00000  test    mintime= 0.003322
           avx_fma4_ChirpData_d4 0.003431 0.00000  test    mintime= 0.003379
           avx_fma4_ChirpData_d6 0.003521 0.00000  test    mintime= 0.003345
           avx_fma4_ChirpData_d8 0.003383 0.00000  test    mintime= 0.003338
            avx_fma4_ChirpData_e 0.003917 0.00000  test    mintime= 0.003905
            avx_fma4_ChirpData_a 0.003380 0.00000  choice

            Second run

                     v_ChirpData 0.009529 0.00000  test    mintime= 0.004951
                   fpu_ChirpData 0.017635 0.00000  test    mintime= 0.017457
               fpu_opt_ChirpData 0.009079 0.00000  test    mintime= 0.004666
             sse1_ChirpData_ak8e 0.007233 0.00000  test    mintime= 0.007192
              sse2_ChirpData_ak8 0.004588 0.00000  test    mintime= 0.004541
              sse3_ChirpData_ak8 0.004432 0.00000  test    mintime= 0.004417
                 avx_ChirpData_a 0.003823 0.00000  test    mintime= 0.003739
                 avx_ChirpData_b 0.003827 0.00000  test    mintime= 0.003784
                 avx_ChirpData_c 0.004122 0.00000  test    mintime= 0.004076
                 avx_ChirpData_d 0.004002 0.00000  test    mintime= 0.003958
                 avx_ChirpData_e 0.003933 0.00000  test    mintime= 0.003886
                 avx_ChirpData_f 0.003716 0.00000  test    mintime= 0.003666
                 avx_ChirpData_g 0.003687 0.00000  test    mintime= 0.003615
                 avx_ChirpData_h 0.004483 0.00000  test    mintime= 0.004378
                 avx_ChirpData_i 0.003910 0.00000  test    mintime= 0.003850
            avx_fma4_ChirpData_a 0.003392 0.00000  test    mintime= 0.003324
           avx_fma4_ChirpData_d4 0.003453 0.00000  test    mintime= 0.003392
           avx_fma4_ChirpData_d6 0.003533 0.00000  test    mintime= 0.003487
           avx_fma4_ChirpData_d8 0.003477 0.00000  test    mintime= 0.003394
            avx_fma4_ChirpData_e 0.003999 0.00000  test    mintime= 0.003937
            avx_fma4_ChirpData_a 0.003392 0.00000  choice

            Third run

                     v_ChirpData 0.009590 0.00000  test    mintime= 0.005087
                   fpu_ChirpData 0.018358 0.00000  test    mintime= 0.017907
               fpu_opt_ChirpData 0.009407 0.00000  test    mintime= 0.004685
             sse1_ChirpData_ak8e 0.007488 0.00000  test    mintime= 0.007304
              sse2_ChirpData_ak8 0.004673 0.00000  test    mintime= 0.004614
              sse3_ChirpData_ak8 0.004549 0.00000  test    mintime= 0.004473
                 avx_ChirpData_a 0.004010 0.00000  test    mintime= 0.003766
                 avx_ChirpData_b 0.003849 0.00000  test    mintime= 0.003803
                 avx_ChirpData_c 0.004126 0.00000  test    mintime= 0.004085
                 avx_ChirpData_d 0.004000 0.00000  test    mintime= 0.003981
                 avx_ChirpData_e 0.003917 0.00000  test    mintime= 0.003881
                 avx_ChirpData_f 0.003818 0.00000  test    mintime= 0.003664
                 avx_ChirpData_g 0.003710 0.00000  test    mintime= 0.003597
                 avx_ChirpData_h 0.004417 0.00000  test    mintime= 0.004379
                 avx_ChirpData_i 0.003895 0.00000  test    mintime= 0.003867
            avx_fma4_ChirpData_a 0.003405 0.00000  test    mintime= 0.003341
           avx_fma4_ChirpData_d4 0.003448 0.00000  test    mintime= 0.003356
           avx_fma4_ChirpData_d6 0.003464 0.00000  test    mintime= 0.003389
           avx_fma4_ChirpData_d8 0.003538 0.00000  test    mintime= 0.003346
            avx_fma4_ChirpData_e 0.003965 0.00000  test    mintime= 0.003922
            avx_fma4_ChirpData_a 0.003405 0.00000  choice

                   Test duration    11.20 seconds

Ftst_v7 completed successfully.

Second run BOINC IDLE
=========================================================
Ftst_v7_J54_Chirponly started.

Optimal function choices:
--------------------------------------------------------
                            name   timing   error
--------------------------------------------------------
                     v_ChirpData 0.009191 0.00000  test    mintime= 0.004928
                   fpu_ChirpData 0.017562 0.00000  test    mintime= 0.017515
               fpu_opt_ChirpData 0.008981 0.00000  test    mintime= 0.004633
             sse1_ChirpData_ak8e 0.007240 0.00000  test    mintime= 0.007195
              sse2_ChirpData_ak8 0.004578 0.00000  test    mintime= 0.004515
              sse3_ChirpData_ak8 0.004546 0.00000  test    mintime= 0.004421
                 avx_ChirpData_a 0.003788 0.00000  test    mintime= 0.003753
                 avx_ChirpData_b 0.003842 0.00000  test    mintime= 0.003806
                 avx_ChirpData_c 0.004095 0.00000  test    mintime= 0.004072
                 avx_ChirpData_d 0.003996 0.00000  test    mintime= 0.003948
                 avx_ChirpData_e 0.003908 0.00000  test    mintime= 0.003887
                 avx_ChirpData_f 0.003708 0.00000  test    mintime= 0.003665
                 avx_ChirpData_g 0.003602 0.00000  test    mintime= 0.003581
                 avx_ChirpData_h 0.004397 0.00000  test    mintime= 0.004363
                 avx_ChirpData_i 0.003876 0.00000  test    mintime= 0.003844
            avx_fma4_ChirpData_a 0.003374 0.00000  test    mintime= 0.003328
           avx_fma4_ChirpData_d4 0.003371 0.00000  test    mintime= 0.003353
           avx_fma4_ChirpData_d6 0.003421 0.00000  test    mintime= 0.003335
           avx_fma4_ChirpData_d8 0.003377 0.00000  test    mintime= 0.003348
            avx_fma4_ChirpData_e 0.003945 0.00000  test    mintime= 0.003914
           avx_fma4_ChirpData_d4 0.003371 0.00000  choice

            Second run

                     v_ChirpData 0.009147 0.00000  test    mintime= 0.004946
                   fpu_ChirpData 0.017576 0.00000  test    mintime= 0.017502
               fpu_opt_ChirpData 0.008935 0.00000  test    mintime= 0.004644
             sse1_ChirpData_ak8e 0.007233 0.00000  test    mintime= 0.007189
              sse2_ChirpData_ak8 0.004593 0.00000  test    mintime= 0.004523
              sse3_ChirpData_ak8 0.004424 0.00000  test    mintime= 0.004418
                 avx_ChirpData_a 0.003805 0.00000  test    mintime= 0.003735
                 avx_ChirpData_b 0.003810 0.00000  test    mintime= 0.003774
                 avx_ChirpData_c 0.004115 0.00000  test    mintime= 0.004094
                 avx_ChirpData_d 0.003971 0.00000  test    mintime= 0.003960
                 avx_ChirpData_e 0.003910 0.00000  test    mintime= 0.003864
                 avx_ChirpData_f 0.003696 0.00000  test    mintime= 0.003666
                 avx_ChirpData_g 0.003619 0.00000  test    mintime= 0.003559
                 avx_ChirpData_h 0.004404 0.00000  test    mintime= 0.004376
                 avx_ChirpData_i 0.003880 0.00000  test    mintime= 0.003861
            avx_fma4_ChirpData_a 0.003350 0.00000  test    mintime= 0.003323
           avx_fma4_ChirpData_d4 0.003392 0.00000  test    mintime= 0.003354
           avx_fma4_ChirpData_d6 0.003353 0.00000  test    mintime= 0.003344
           avx_fma4_ChirpData_d8 0.003352 0.00000  test    mintime= 0.003340
            avx_fma4_ChirpData_e 0.003941 0.00000  test    mintime= 0.003902
            avx_fma4_ChirpData_a 0.003350 0.00000  choice

            Third run

                     v_ChirpData 0.009191 0.00000  test    mintime= 0.004914
                   fpu_ChirpData 0.017564 0.00000  test    mintime= 0.017467
               fpu_opt_ChirpData 0.008974 0.00000  test    mintime= 0.004635
             sse1_ChirpData_ak8e 0.007437 0.00000  test    mintime= 0.007225
              sse2_ChirpData_ak8 0.004660 0.00000  test    mintime= 0.004520
              sse3_ChirpData_ak8 0.004443 0.00000  test    mintime= 0.004420
                 avx_ChirpData_a 0.003801 0.00000  test    mintime= 0.003711
                 avx_ChirpData_b 0.003829 0.00000  test    mintime= 0.003784
                 avx_ChirpData_c 0.004095 0.00000  test    mintime= 0.004075
                 avx_ChirpData_d 0.004004 0.00000  test    mintime= 0.003969
                 avx_ChirpData_e 0.003909 0.00000  test    mintime= 0.003861
                 avx_ChirpData_f 0.003724 0.00000  test    mintime= 0.003667
                 avx_ChirpData_g 0.003675 0.00000  test    mintime= 0.003593
                 avx_ChirpData_h 0.004403 0.00000  test    mintime= 0.004370
                 avx_ChirpData_i 0.003866 0.00000  test    mintime= 0.003849
            avx_fma4_ChirpData_a 0.003363 0.00000  test    mintime= 0.003351
           avx_fma4_ChirpData_d4 0.003387 0.00000  test    mintime= 0.003363
           avx_fma4_ChirpData_d6 0.003381 0.00000  test    mintime= 0.003345
           avx_fma4_ChirpData_d8 0.003369 0.00000  test    mintime= 0.003340
            avx_fma4_ChirpData_e 0.003969 0.00000  test    mintime= 0.003923
            avx_fma4_ChirpData_a 0.003363 0.00000  choice

                   Test duration    11.07 seconds

Ftst_v7 completed successfully.

Offline KarVi

  • Alpha Tester
  • Knight Templar
  • ***
  • Posts: 252
Re: AVX Optimized App Development
« Reply #138 on: 25 May 2012, 11:24:19 am »
FX 8150@4,5

Boinc paused as usual. System completely idle, I didn't even move the mouse.

=========================================================
Ftst_v7_J54_Chirponly started.

Optimal function choices:
--------------------------------------------------------
                            name   timing   error
--------------------------------------------------------
                     v_ChirpData 0.007559 0.00000  test    mintime= 0.004060
                   fpu_ChirpData 0.013618 0.00000  test    mintime= 0.013601
               fpu_opt_ChirpData 0.007416 0.00000  test    mintime= 0.003848
             sse1_ChirpData_ak8e 0.005540 0.00000  test    mintime= 0.005529
              sse2_ChirpData_ak8 0.003595 0.00000  test    mintime= 0.003567
              sse3_ChirpData_ak8 0.003480 0.00000  test    mintime= 0.003471
                 avx_ChirpData_a 0.002973 0.00000  test    mintime= 0.002969
                 avx_ChirpData_b 0.002961 0.00000  test    mintime= 0.002951
                 avx_ChirpData_c 0.003203 0.00000  test    mintime= 0.003190
                 avx_ChirpData_d 0.003107 0.00000  test    mintime= 0.003097
                 avx_ChirpData_e 0.003048 0.00000  test    mintime= 0.003043
                 avx_ChirpData_f 0.002884 0.00000  test    mintime= 0.002880
                 avx_ChirpData_g 0.002811 0.00000  test    mintime= 0.002800
                 avx_ChirpData_h 0.003455 0.00000  test    mintime= 0.003441
                 avx_ChirpData_i 0.003046 0.00000  test    mintime= 0.003033
            avx_fma4_ChirpData_a 0.002846 0.00000  test    mintime= 0.002630
           avx_fma4_ChirpData_d4 0.002656 0.00000  test    mintime= 0.002649
           avx_fma4_ChirpData_d6 0.002632 0.00000  test    mintime= 0.002627
           avx_fma4_ChirpData_d8 0.002620 0.00000  test    mintime= 0.002618
            avx_fma4_ChirpData_e 0.003091 0.00000  test    mintime= 0.003088
           avx_fma4_ChirpData_d8 0.002620 0.00000  choice

            Second run

                     v_ChirpData 0.007577 0.00000  test    mintime= 0.004067
                   fpu_ChirpData 0.013604 0.00000  test    mintime= 0.013573
               fpu_opt_ChirpData 0.007383 0.00000  test    mintime= 0.003850
             sse1_ChirpData_ak8e 0.005512 0.00000  test    mintime= 0.005497
              sse2_ChirpData_ak8 0.003602 0.00000  test    mintime= 0.003573
              sse3_ChirpData_ak8 0.003478 0.00000  test    mintime= 0.003472
                 avx_ChirpData_a 0.002977 0.00000  test    mintime= 0.002972
                 avx_ChirpData_b 0.002965 0.00000  test    mintime= 0.002957
                 avx_ChirpData_c 0.003197 0.00000  test    mintime= 0.003190
                 avx_ChirpData_d 0.003108 0.00000  test    mintime= 0.003099
                 avx_ChirpData_e 0.003051 0.00000  test    mintime= 0.003047
                 avx_ChirpData_f 0.002895 0.00000  test    mintime= 0.002886
                 avx_ChirpData_g 0.002809 0.00000  test    mintime= 0.002807
                 avx_ChirpData_h 0.003471 0.00000  test    mintime= 0.003449
                 avx_ChirpData_i 0.003056 0.00000  test    mintime= 0.003040
            avx_fma4_ChirpData_a 0.002643 0.00000  test    mintime= 0.002636
           avx_fma4_ChirpData_d4 0.002657 0.00000  test    mintime= 0.002653
           avx_fma4_ChirpData_d6 0.002634 0.00000  test    mintime= 0.002629
           avx_fma4_ChirpData_d8 0.002620 0.00000  test    mintime= 0.002618
            avx_fma4_ChirpData_e 0.003102 0.00000  test    mintime= 0.003091
           avx_fma4_ChirpData_d8 0.002620 0.00000  choice

            Third run

                     v_ChirpData 0.007571 0.00000  test    mintime= 0.004069
                   fpu_ChirpData 0.013619 0.00000  test    mintime= 0.013601
               fpu_opt_ChirpData 0.007503 0.00000  test    mintime= 0.003850
             sse1_ChirpData_ak8e 0.005545 0.00000  test    mintime= 0.005531
              sse2_ChirpData_ak8 0.003589 0.00000  test    mintime= 0.003566
              sse3_ChirpData_ak8 0.003483 0.00000  test    mintime= 0.003476
                 avx_ChirpData_a 0.002976 0.00000  test    mintime= 0.002972
                 avx_ChirpData_b 0.002986 0.00000  test    mintime= 0.002957
                 avx_ChirpData_c 0.003198 0.00000  test    mintime= 0.003192
                 avx_ChirpData_d 0.003109 0.00000  test    mintime= 0.003103
                 avx_ChirpData_e 0.003054 0.00000  test    mintime= 0.003044
                 avx_ChirpData_f 0.002885 0.00000  test    mintime= 0.002881
                 avx_ChirpData_g 0.002807 0.00000  test    mintime= 0.002804
                 avx_ChirpData_h 0.003454 0.00000  test    mintime= 0.003444
                 avx_ChirpData_i 0.003048 0.00000  test    mintime= 0.003035
            avx_fma4_ChirpData_a 0.002637 0.00000  test    mintime= 0.002635
           avx_fma4_ChirpData_d4 0.002655 0.00000  test    mintime= 0.002653
           avx_fma4_ChirpData_d6 0.002640 0.00000  test    mintime= 0.002627
           avx_fma4_ChirpData_d8 0.002629 0.00000  test    mintime= 0.002618
            avx_fma4_ChirpData_e 0.003095 0.00000  test    mintime= 0.003092
           avx_fma4_ChirpData_d8 0.002629 0.00000  choice

                   Test duration     8.62 seconds

Ftst_v7 completed successfully.

Again difference from 4100 to 8150. 8150 is more consistent though.

I can't remember if arkayn runs with any frequency changing settings enabled, either turbo or C&Q, but find it strange that his 4100 chooses so differently, when mine choose avx_fma d8 every time, and with almost the same exact timings.
« Last Edit: 25 May 2012, 11:31:36 am by KarVi »
A smile is the shortest distance between two peoble (Victor Borge).

Offline arkayn

  • Janitor o' the Board
  • Knight who says 'Ni!'
  • *****
  • Posts: 1230
  • Aaaarrrrgggghhhh
    • My Little Place On The Internet
Re: AVX Optimized App Development
« Reply #139 on: 25 May 2012, 12:00:50 pm »
I am running strictly stock speeds with my FX-4100 and have the system set to performance in the CP.
12GB DDR3-1600 Ram
GTX460 & HD7750

Board is a MSI 870A-G54
http://www.newegg.com/Product/Product.aspx?Item=N82E16813130632R

Offline KarVi

  • Alpha Tester
  • Knight Templar
  • ***
  • Posts: 252
Re: AVX Optimized App Development
« Reply #140 on: 25 May 2012, 01:12:39 pm »
So its possible the CPU is up/down -clocking?

That could possibly explain why results fluctuate more on your system.

My 8150 is residing in an ASUS Sabertooth 990FX, and is locked at 4.5, with CNQ and turbo turned off, as well as any other power saving states (C1E, C6). The SRQ/UNB/L3 cache is running at 2.4Ghz. Memory is at 1866Mhz, but it is cheap ram, with relaxed timings (9-10-9-27-48).

Locked clock will produce more predictable results, because the CPU cant decide to change speeds during tests.

But looking at mintimes on your 4100, it does seem to prefer d8, as that produces the fastest mintimes, so Josef's inclusion of mintimes are helpfull indeed.
« Last Edit: 25 May 2012, 01:34:06 pm by KarVi »
A smile is the shortest distance between two peoble (Victor Borge).

Offline PatrickV2

  • Knight o' The Round Table
  • ***
  • Posts: 139
Re: AVX Optimized App Development
« Reply #141 on: 25 May 2012, 01:14:01 pm »
Hi there,

I have the new Game-Machine for my brother under my desk. Basic config:

i7-3770 @ 3.4GHz / Sabertooth Z77 mainboard / 8GB of DDR3-1600 memory.

Nothing running in the background, results:

=========================================================
Ftst_v7_J45 started.

Optimal function choices:
--------------------------------------------------------
                            name   timing   error
--------------------------------------------------------
                v_BaseLineSmooth (no other)

              v_GetPowerSpectrum 0.000246 0.00000  test
             v_vGetPowerSpectrum 0.000110 0.00000  test
            v_vGetPowerSpectrum2 0.000140 0.00000  test
     v_vGetPowerSpectrumUnrolled 0.000098 0.00000  test
    v_vGetPowerSpectrumUnrolled2 0.000139 0.00000  test
           v_avxGetPowerSpectrum 0.000099 0.00000  test
     v_vGetPowerSpectrumUnrolled 0.000098 0.00000  choice

                     v_ChirpData 0.003750 0.00000  test
                   fpu_ChirpData 0.010178 0.00000  test
               fpu_opt_ChirpData 0.003710 0.00000  test
             v_vChirpData_x86_64 0.049955 0.00000  test
               sse1_ChirpData_ak 0.005268 0.00000  test
             sse1_ChirpData_ak8e 0.004364 0.00000  test
             sse1_ChirpData_ak8h 0.004614 0.00000  test
               sse2_ChirpData_ak 0.004918 0.00000  test
              sse2_ChirpData_ak8 0.003300 0.00000  test
               sse3_ChirpData_ak 0.004881 0.00000  test
              sse3_ChirpData_ak8 0.003142 0.00000  test
                 avx_ChirpData_a 0.001725 0.00000  test
                 avx_ChirpData_b 0.001749 0.00000  test
                 avx_ChirpData_c 0.001756 0.00000  test
                 avx_ChirpData_d 0.001615 0.00000  test
                 avx_ChirpData_d 0.001615 0.00000  choice

                     v_Transpose 0.002763 0.00000  test
                    v_Transpose2 0.004412 0.00000  test
                    v_Transpose4 0.002838 0.00000  test
                    v_Transpose8 0.003690 0.00000  test
                  v_pfTranspose2 0.002367 0.00000  test
                  v_pfTranspose4 0.002801 0.00000  test
                  v_pfTranspose8 0.004063 0.00000  test
                   v_vTranspose4 0.001822 0.00000  test
                 v_vTranspose4np 0.001887 0.00000  test
                v_vTranspose4ntw 0.007671 0.00000  test
              v_vTranspose4x8ntw 0.004252 0.00000  test
             v_vTranspose4x16ntw 0.001665 0.00000  test
            v_vpfTranspose8x4ntw 0.007697 0.00000  test
            v_avxTranspose4x8ntw 0.004180 0.00000  test
           v_avxTranspose4x16ntw 0.001380 0.00000  test
            v_avxTranspose8x4ntw 0.007660 0.00000  test
          v_avxTranspose8x8ntw_a 0.004437 0.00000  test
          v_avxTranspose8x8ntw_b 0.004565 0.00000  test
           v_avxTranspose4x16ntw 0.001380 0.00000  choice

                 FPU opt folding 0.002733 0.00000  test
                  AK SSE folding 0.001015 0.00000  test
                  BH SSE folding 0.000938 0.00000  test
                JS AVX_a folding 0.000798 0.00000  test
                JS AVX_c folding 0.000821 0.00000  test
                JS AVX_a folding 0.000798 0.00000  choice

                   Test duration     7.03 seconds

Ftst_v7 completed successfully.


=========================================================
Ftst_v7_J54_Chirponly started.

Optimal function choices:
--------------------------------------------------------
                            name   timing   error
--------------------------------------------------------
                     v_ChirpData 0.003834 0.00000  test    mintime= 0.002387
                   fpu_ChirpData 0.010318 0.00000  test    mintime= 0.010281
               fpu_opt_ChirpData 0.003676 0.00000  test    mintime= 0.002203
             sse1_ChirpData_ak8e 0.004432 0.00000  test    mintime= 0.004417
              sse2_ChirpData_ak8 0.003265 0.00000  test    mintime= 0.003256
              sse3_ChirpData_ak8 0.003119 0.00000  test    mintime= 0.003111
                 avx_ChirpData_a 0.001727 0.00000  test    mintime= 0.001723
                 avx_ChirpData_b 0.001693 0.00000  test    mintime= 0.001688
                 avx_ChirpData_c 0.001768 0.00000  test    mintime= 0.001752
                 avx_ChirpData_d 0.001614 0.00000  test    mintime= 0.001612
                 avx_ChirpData_e 0.001610 0.00000  test    mintime= 0.001605
                 avx_ChirpData_f 0.001721 0.00000  test    mintime= 0.001717
                 avx_ChirpData_g 0.001750 0.00000  test    mintime= 0.001736
                 avx_ChirpData_h 0.002148 0.00000  test    mintime= 0.002114
                 avx_ChirpData_i 0.001855 0.00000  test    mintime= 0.001837
            avx_fma4_ChirpData_a not supported by system
           avx_fma4_ChirpData_d4 not supported by system
           avx_fma4_ChirpData_d6 not supported by system
           avx_fma4_ChirpData_d8 not supported by system
            avx_fma4_ChirpData_e not supported by system
                 avx_ChirpData_e 0.001610 0.00000  choice

            Second run

                     v_ChirpData 0.003801 0.00000  test    mintime= 0.002389
                   fpu_ChirpData 0.010334 0.00000  test    mintime= 0.010292
               fpu_opt_ChirpData 0.003718 0.00000  test    mintime= 0.002202
             sse1_ChirpData_ak8e 0.004435 0.00000  test    mintime= 0.004411
              sse2_ChirpData_ak8 0.003280 0.00000  test    mintime= 0.003258
              sse3_ChirpData_ak8 0.003125 0.00000  test    mintime= 0.003112
                 avx_ChirpData_a 0.001725 0.00000  test    mintime= 0.001723
                 avx_ChirpData_b 0.001698 0.00000  test    mintime= 0.001689
                 avx_ChirpData_c 0.001755 0.00000  test    mintime= 0.001752
                 avx_ChirpData_d 0.001617 0.00000  test    mintime= 0.001612
                 avx_ChirpData_e 0.001608 0.00000  test    mintime= 0.001605
                 avx_ChirpData_f 0.001733 0.00000  test    mintime= 0.001720
                 avx_ChirpData_g 0.001741 0.00000  test    mintime= 0.001732
                 avx_ChirpData_h 0.002146 0.00000  test    mintime= 0.002111
                 avx_ChirpData_i 0.001862 0.00000  test    mintime= 0.001843
            avx_fma4_ChirpData_a not supported by system
           avx_fma4_ChirpData_d4 not supported by system
           avx_fma4_ChirpData_d6 not supported by system
           avx_fma4_ChirpData_d8 not supported by system
            avx_fma4_ChirpData_e not supported by system
                 avx_ChirpData_e 0.001608 0.00000  choice

            Third run

                     v_ChirpData 0.003781 0.00000  test    mintime= 0.002383
                   fpu_ChirpData 0.010354 0.00000  test    mintime= 0.010298
               fpu_opt_ChirpData 0.003670 0.00000  test    mintime= 0.002202
             sse1_ChirpData_ak8e 0.004439 0.00000  test    mintime= 0.004414
              sse2_ChirpData_ak8 0.003258 0.00000  test    mintime= 0.003255
              sse3_ChirpData_ak8 0.003139 0.00000  test    mintime= 0.003113
                 avx_ChirpData_a 0.001727 0.00000  test    mintime= 0.001723
                 avx_ChirpData_b 0.001697 0.00000  test    mintime= 0.001690
                 avx_ChirpData_c 0.001755 0.00000  test    mintime= 0.001753
                 avx_ChirpData_d 0.001621 0.00000  test    mintime= 0.001612
                 avx_ChirpData_e 0.001611 0.00000  test    mintime= 0.001605
                 avx_ChirpData_f 0.001727 0.00000  test    mintime= 0.001717
                 avx_ChirpData_g 0.001743 0.00000  test    mintime= 0.001735
                 avx_ChirpData_h 0.002145 0.00000  test    mintime= 0.002107
                 avx_ChirpData_i 0.001857 0.00000  test    mintime= 0.001840
            avx_fma4_ChirpData_a not supported by system
           avx_fma4_ChirpData_d4 not supported by system
           avx_fma4_ChirpData_d6 not supported by system
           avx_fma4_ChirpData_d8 not supported by system
            avx_fma4_ChirpData_e not supported by system
                 avx_ChirpData_e 0.001611 0.00000  choice

                   Test duration    12.43 seconds

Ftst_v7 completed successfully.

Hope this helps, regards,

Patrick.

Offline arkayn

  • Janitor o' the Board
  • Knight who says 'Ni!'
  • *****
  • Posts: 1230
  • Aaaarrrrgggghhhh
    • My Little Place On The Internet
Re: AVX Optimized App Development
« Reply #142 on: 25 May 2012, 01:34:57 pm »
So its possible the CPU is up/down -clocking?

That could possibly explain why results fluctuate more on your system.

My 8150 is residing in an ASUS Sabertooth 990FX, and is locked at 4.5, with CNQ and turbo turned off, as well as any other power saving states (C1E, C6). The SRQ/UNB/L3 cache is running at 2.4Ghz.

Locked clock will produce more predictable results, because the CPU cant decide to change speeds during tests.

But looking at mintimes on your 4100, it does seem to prefer d8, as that produces the fastest mintimes, so Josef's inclusion of mintimes are helpfull indeed.

Just restarted to check my BIOS and disabled Turbo and C1E, so there should be no major discrepancies now.

=========================================================
Ftst_v7_J54_Chirponly started.

Optimal function choices:
--------------------------------------------------------
                            name   timing   error
--------------------------------------------------------
                     v_ChirpData 0.009824 0.00000  test    mintime= 0.005371
                   fpu_ChirpData 0.017487 0.00000  test    mintime= 0.017333
               fpu_opt_ChirpData 0.009654 0.00000  test    mintime= 0.005122
             sse1_ChirpData_ak8e 0.007148 0.00000  test    mintime= 0.007111
              sse2_ChirpData_ak8 0.004559 0.00000  test    mintime= 0.004487
              sse3_ChirpData_ak8 0.004439 0.00000  test    mintime= 0.004402
                 avx_ChirpData_a 0.003772 0.00000  test    mintime= 0.003741
                 avx_ChirpData_b 0.003828 0.00000  test    mintime= 0.003732
                 avx_ChirpData_c 0.004082 0.00000  test    mintime= 0.004050
                 avx_ChirpData_d 0.003935 0.00000  test    mintime= 0.003932
                 avx_ChirpData_e 0.003859 0.00000  test    mintime= 0.003853
                 avx_ChirpData_f 0.003646 0.00000  test    mintime= 0.003635
                 avx_ChirpData_g 0.003545 0.00000  test    mintime= 0.003533
                 avx_ChirpData_h 0.004371 0.00000  test    mintime= 0.004342
                 avx_ChirpData_i 0.003838 0.00000  test    mintime= 0.003808
            avx_fma4_ChirpData_a 0.003330 0.00000  test    mintime= 0.003310
           avx_fma4_ChirpData_d4 0.003355 0.00000  test    mintime= 0.003341
           avx_fma4_ChirpData_d6 0.003351 0.00000  test    mintime= 0.003328
           avx_fma4_ChirpData_d8 0.003342 0.00000  test    mintime= 0.003325
            avx_fma4_ChirpData_e 0.003921 0.00000  test    mintime= 0.003904
            avx_fma4_ChirpData_a 0.003330 0.00000  choice

            Second run

                     v_ChirpData 0.009809 0.00000  test    mintime= 0.005367
                   fpu_ChirpData 0.017515 0.00000  test    mintime= 0.017334
               fpu_opt_ChirpData 0.009602 0.00000  test    mintime= 0.005055
             sse1_ChirpData_ak8e 0.007170 0.00000  test    mintime= 0.007113
              sse2_ChirpData_ak8 0.004509 0.00000  test    mintime= 0.004488
              sse3_ChirpData_ak8 0.004414 0.00000  test    mintime= 0.004390
                 avx_ChirpData_a 0.003774 0.00000  test    mintime= 0.003756
                 avx_ChirpData_b 0.003848 0.00000  test    mintime= 0.003806
                 avx_ChirpData_c 0.004058 0.00000  test    mintime= 0.004048
                 avx_ChirpData_d 0.003937 0.00000  test    mintime= 0.003932
                 avx_ChirpData_e 0.003857 0.00000  test    mintime= 0.003853
                 avx_ChirpData_f 0.003644 0.00000  test    mintime= 0.003635
                 avx_ChirpData_g 0.003543 0.00000  test    mintime= 0.003534
                 avx_ChirpData_h 0.004350 0.00000  test    mintime= 0.004335
                 avx_ChirpData_i 0.003856 0.00000  test    mintime= 0.003822
            avx_fma4_ChirpData_a 0.003331 0.00000  test    mintime= 0.003310
           avx_fma4_ChirpData_d4 0.003349 0.00000  test    mintime= 0.003341
           avx_fma4_ChirpData_d6 0.003335 0.00000  test    mintime= 0.003329
           avx_fma4_ChirpData_d8 0.003333 0.00000  test    mintime= 0.003326
            avx_fma4_ChirpData_e 0.003913 0.00000  test    mintime= 0.003900
            avx_fma4_ChirpData_a 0.003331 0.00000  choice

            Third run

                     v_ChirpData 0.009795 0.00000  test    mintime= 0.005379
                   fpu_ChirpData 0.017380 0.00000  test    mintime= 0.017333
               fpu_opt_ChirpData 0.009683 0.00000  test    mintime= 0.005122
             sse1_ChirpData_ak8e 0.007147 0.00000  test    mintime= 0.007113
              sse2_ChirpData_ak8 0.004544 0.00000  test    mintime= 0.004502
              sse3_ChirpData_ak8 0.004440 0.00000  test    mintime= 0.004403
                 avx_ChirpData_a 0.003776 0.00000  test    mintime= 0.003748
                 avx_ChirpData_b 0.003836 0.00000  test    mintime= 0.003741
                 avx_ChirpData_c 0.004129 0.00000  test    mintime= 0.004049
                 avx_ChirpData_d 0.003951 0.00000  test    mintime= 0.003937
                 avx_ChirpData_e 0.003870 0.00000  test    mintime= 0.003853
                 avx_ChirpData_f 0.003650 0.00000  test    mintime= 0.003638
                 avx_ChirpData_g 0.003574 0.00000  test    mintime= 0.003537
                 avx_ChirpData_h 0.004354 0.00000  test    mintime= 0.004334
                 avx_ChirpData_i 0.003865 0.00000  test    mintime= 0.003821
            avx_fma4_ChirpData_a 0.003316 0.00000  test    mintime= 0.003311
           avx_fma4_ChirpData_d4 0.003347 0.00000  test    mintime= 0.003342
           avx_fma4_ChirpData_d6 0.003332 0.00000  test    mintime= 0.003325
           avx_fma4_ChirpData_d8 0.003330 0.00000  test    mintime= 0.003326
            avx_fma4_ChirpData_e 0.003932 0.00000  test    mintime= 0.003908
            avx_fma4_ChirpData_a 0.003316 0.00000  choice

                   Test duration    10.93 seconds

Ftst_v7 completed successfully.

Offline KarVi

  • Alpha Tester
  • Knight Templar
  • ***
  • Posts: 252
Re: AVX Optimized App Development
« Reply #143 on: 25 May 2012, 01:40:03 pm »
Well, now it doesn't prefer d8 (if it ever did) anymore, but at least its consistent with what it chooses. :)

Results are more stable it seems.
« Last Edit: 25 May 2012, 01:43:33 pm by KarVi »
A smile is the shortest distance between two peoble (Victor Borge).

Offline arkayn

  • Janitor o' the Board
  • Knight who says 'Ni!'
  • *****
  • Posts: 1230
  • Aaaarrrrgggghhhh
    • My Little Place On The Internet
Re: AVX Optimized App Development
« Reply #144 on: 25 May 2012, 01:44:00 pm »
Actually, my system has fairly consistently preferred a, but d8 was usually a close second.

Offline KarVi

  • Alpha Tester
  • Knight Templar
  • ***
  • Posts: 252
Re: AVX Optimized App Development
« Reply #145 on: 25 May 2012, 01:52:11 pm »
Yes.

Still it is a bit puzzling, that mine definately prefers d8.

Perhaps my SRQ/UNB/L3-cache is taxed harder, because of more cores asking for work?

But this test is singlethreaded (as far as I know), so that shouldn't be the case. Maybe the clockspeeds of L3 or memory play a role here?

Anyhow the differences are small, so I can live with whatever Josef chooses to work with.

Another thing, it is daunting to see an i7@3.4 comletely dominate my 8150@4.5. AMD has much catching up to do.
A smile is the shortest distance between two peoble (Victor Borge).

Offline arkayn

  • Janitor o' the Board
  • Knight who says 'Ni!'
  • *****
  • Posts: 1230
  • Aaaarrrrgggghhhh
    • My Little Place On The Internet
Re: AVX Optimized App Development
« Reply #146 on: 25 May 2012, 02:01:52 pm »
My i3 is also cruising past the FX computers.

=========================================================
Ftst_v7_J54_Chirponly started.

Optimal function choices:
--------------------------------------------------------
                            name   timing   error
--------------------------------------------------------
                     v_ChirpData 0.004736 0.00000  test    mintime= 0.003079
                   fpu_ChirpData 0.012392 0.00000  test    mintime= 0.012347
               fpu_opt_ChirpData 0.004540 0.00000  test    mintime= 0.002796
             sse1_ChirpData_ak8e 0.005779 0.00000  test    mintime= 0.005765
              sse2_ChirpData_ak8 0.004182 0.00000  test    mintime= 0.004173
              sse3_ChirpData_ak8 0.004011 0.00000  test    mintime= 0.003991
                 avx_ChirpData_a 0.002091 0.00000  test    mintime= 0.002079
                 avx_ChirpData_b 0.002050 0.00000  test    mintime= 0.002033
                 avx_ChirpData_c 0.002109 0.00000  test    mintime= 0.002099
                 avx_ChirpData_d 0.001937 0.00000  test    mintime= 0.001930
                 avx_ChirpData_e 0.001919 0.00000  test    mintime= 0.001915
                 avx_ChirpData_f 0.002059 0.00000  test    mintime= 0.002043
                 avx_ChirpData_g 0.002114 0.00000  test    mintime= 0.002072
                 avx_ChirpData_h 0.002664 0.00000  test    mintime= 0.002657
                 avx_ChirpData_i 0.002322 0.00000  test    mintime= 0.002216
            avx_fma4_ChirpData_a not supported by system
           avx_fma4_ChirpData_d4 not supported by system
           avx_fma4_ChirpData_d6 not supported by system
           avx_fma4_ChirpData_d8 not supported by system
            avx_fma4_ChirpData_e not supported by system
                 avx_ChirpData_e 0.001919 0.00000  choice

            Second run

                     v_ChirpData 0.004711 0.00000  test    mintime= 0.003087
                   fpu_ChirpData 0.012465 0.00000  test    mintime= 0.012372
               fpu_opt_ChirpData 0.004542 0.00000  test    mintime= 0.002788
             sse1_ChirpData_ak8e 0.005808 0.00000  test    mintime= 0.005765
              sse2_ChirpData_ak8 0.004187 0.00000  test    mintime= 0.004172
              sse3_ChirpData_ak8 0.004033 0.00000  test    mintime= 0.003997
                 avx_ChirpData_a 0.002120 0.00000  test    mintime= 0.002079
                 avx_ChirpData_b 0.002092 0.00000  test    mintime= 0.002032
                 avx_ChirpData_c 0.002111 0.00000  test    mintime= 0.002100
                 avx_ChirpData_d 0.001945 0.00000  test    mintime= 0.001933
                 avx_ChirpData_e 0.001928 0.00000  test    mintime= 0.001918
                 avx_ChirpData_f 0.002057 0.00000  test    mintime= 0.002042
                 avx_ChirpData_g 0.002103 0.00000  test    mintime= 0.002072
                 avx_ChirpData_h 0.002668 0.00000  test    mintime= 0.002656
                 avx_ChirpData_i 0.002222 0.00000  test    mintime= 0.002214
            avx_fma4_ChirpData_a not supported by system
           avx_fma4_ChirpData_d4 not supported by system
           avx_fma4_ChirpData_d6 not supported by system
           avx_fma4_ChirpData_d8 not supported by system
            avx_fma4_ChirpData_e not supported by system
                 avx_ChirpData_e 0.001928 0.00000  choice

            Third run

                     v_ChirpData 0.004706 0.00000  test    mintime= 0.003076
                   fpu_ChirpData 0.012670 0.00000  test    mintime= 0.012353
               fpu_opt_ChirpData 0.004944 0.00000  test    mintime= 0.002788
             sse1_ChirpData_ak8e 0.005822 0.00000  test    mintime= 0.005767
              sse2_ChirpData_ak8 0.004212 0.00000  test    mintime= 0.004173
              sse3_ChirpData_ak8 0.004047 0.00000  test    mintime= 0.003995
                 avx_ChirpData_a 0.002284 0.00000  test    mintime= 0.002082
                 avx_ChirpData_b 0.002036 0.00000  test    mintime= 0.002034
                 avx_ChirpData_c 0.002104 0.00000  test    mintime= 0.002100
                 avx_ChirpData_d 0.001941 0.00000  test    mintime= 0.001931
                 avx_ChirpData_e 0.001917 0.00000  test    mintime= 0.001916
                 avx_ChirpData_f 0.002052 0.00000  test    mintime= 0.002042
                 avx_ChirpData_g 0.002077 0.00000  test    mintime= 0.002072
                 avx_ChirpData_h 0.002668 0.00000  test    mintime= 0.002657
                 avx_ChirpData_i 0.002220 0.00000  test    mintime= 0.002213
            avx_fma4_ChirpData_a not supported by system
           avx_fma4_ChirpData_d4 not supported by system
           avx_fma4_ChirpData_d6 not supported by system
           avx_fma4_ChirpData_d8 not supported by system
            avx_fma4_ChirpData_e not supported by system
                 avx_ChirpData_e 0.001917 0.00000  choice

                   Test duration     8.06 seconds

Ftst_v7 completed successfully.

Offline KarVi

  • Alpha Tester
  • Knight Templar
  • ***
  • Posts: 252
Re: AVX Optimized App Development
« Reply #147 on: 25 May 2012, 02:24:00 pm »
Just proves my point :)

It would be nice if Josef had the time for a more specific AMD build, now he is running AMD specific FMA4 anyway.

A build made to take advantage of any strengths, and avoid (m)any weakneses, specifically for BD, would probably perform even better.
I'm not a programmer, but I have read a little of what Agner Fog has written about optimizing code, and it seems there are many do's and don'ts for Bulldozer, and they don't allways correspond well with the do's and dont's for the i-series.

I don't now how AMD specific he is doing things, and AMD specific development would probably require that he had access to a BD based system, and I don't think he has that. The current remote testing is a bit slow :)

Under the circumstances I actually believe he's doing an excellent job.

But I hope he keeps up his efforts, IŽll keep an eye and test all that I can, to help him in his work.
A smile is the shortest distance between two peoble (Victor Borge).

Offline Claggy

  • Alpha Tester
  • Knight who says 'Ni!'
  • ***
  • Posts: 3111
    • My computers at Seti Beta
Re: AVX Optimized App Development
« Reply #148 on: 25 May 2012, 05:32:44 pm »
i7-2600K @4.7GHz (Boinc running):

=========================================================
Ftst_v7_J54_Chirponly started.

Optimal function choices:
--------------------------------------------------------
                            name   timing   error
--------------------------------------------------------
                     v_ChirpData 0.013263 0.00000  test    mintime= 0.008009
                   fpu_ChirpData 0.016376 0.00000  test    mintime= 0.015240
               fpu_opt_ChirpData 0.010888 0.00000  test    mintime= 0.004957
             sse1_ChirpData_ak8e 0.006530 0.00000  test    mintime= 0.006036
              sse2_ChirpData_ak8 0.005245 0.00000  test    mintime= 0.004845
              sse3_ChirpData_ak8 0.005638 0.00000  test    mintime= 0.005391
                 avx_ChirpData_a 0.003428 0.00000  test    mintime= 0.002866
                 avx_ChirpData_b 0.003293 0.00000  test    mintime= 0.003004
                 avx_ChirpData_c 0.003464 0.00000  test    mintime= 0.002649
                 avx_ChirpData_d 0.003401 0.00000  test    mintime= 0.003068
                 avx_ChirpData_e 0.003336 0.00000  test    mintime= 0.002747
                 avx_ChirpData_f 0.003858 0.00000  test    mintime= 0.002764
                 avx_ChirpData_g 0.003393 0.00000  test    mintime= 0.002854
                 avx_ChirpData_h 0.004357 0.00000  test    mintime= 0.003769
                 avx_ChirpData_i 0.003741 0.00000  test    mintime= 0.003195
            avx_fma4_ChirpData_a not supported by system
           avx_fma4_ChirpData_d4 not supported by system
           avx_fma4_ChirpData_d6 not supported by system
           avx_fma4_ChirpData_d8 not supported by system
            avx_fma4_ChirpData_e not supported by system
                 avx_ChirpData_b 0.003293 0.00000  choice

            Second run

                     v_ChirpData 0.011919 0.00000  test    mintime= 0.005614
                   fpu_ChirpData 0.017020 0.00000  test    mintime= 0.015932
               fpu_opt_ChirpData 0.012288 0.00000  test    mintime= 0.005588
             sse1_ChirpData_ak8e 0.006986 0.00000  test    mintime= 0.006516
              sse2_ChirpData_ak8 0.005728 0.00000  test    mintime= 0.005103
              sse3_ChirpData_ak8 0.005483 0.00000  test    mintime= 0.005053
                 avx_ChirpData_a 0.003443 0.00000  test    mintime= 0.003055
                 avx_ChirpData_b 0.003343 0.00000  test    mintime= 0.002985
                 avx_ChirpData_c 0.003370 0.00000  test    mintime= 0.002868
                 avx_ChirpData_d 0.003293 0.00000  test    mintime= 0.002583
                 avx_ChirpData_e 0.003045 0.00000  test    mintime= 0.002483
                 avx_ChirpData_f 0.003491 0.00000  test    mintime= 0.003050
                 avx_ChirpData_g 0.003368 0.00000  test    mintime= 0.002979
                 avx_ChirpData_h 0.004322 0.00000  test    mintime= 0.003799
                 avx_ChirpData_i 0.003393 0.00000  test    mintime= 0.002930
            avx_fma4_ChirpData_a not supported by system
           avx_fma4_ChirpData_d4 not supported by system
           avx_fma4_ChirpData_d6 not supported by system
           avx_fma4_ChirpData_d8 not supported by system
            avx_fma4_ChirpData_e not supported by system
                 avx_ChirpData_e 0.003045 0.00000  choice

            Third run

                     v_ChirpData 0.011498 0.00000  test    mintime= 0.006496
                   fpu_ChirpData 0.017043 0.00000  test    mintime= 0.016015
               fpu_opt_ChirpData 0.012360 0.00000  test    mintime= 0.006857
             sse1_ChirpData_ak8e 0.006964 0.00000  test    mintime= 0.006531
              sse2_ChirpData_ak8 0.005478 0.00000  test    mintime= 0.004993
              sse3_ChirpData_ak8 0.005408 0.00000  test    mintime= 0.005107
                 avx_ChirpData_a 0.003465 0.00000  test    mintime= 0.003220
                 avx_ChirpData_b 0.003389 0.00000  test    mintime= 0.002860
                 avx_ChirpData_c 0.003296 0.00000  test    mintime= 0.002902
                 avx_ChirpData_d 0.002841 0.00000  test    mintime= 0.002393
                 avx_ChirpData_e 0.003209 0.00000  test    mintime= 0.002488
                 avx_ChirpData_f 0.003274 0.00000  test    mintime= 0.002586
                 avx_ChirpData_g 0.003199 0.00000  test    mintime= 0.002958
                 avx_ChirpData_h 0.003922 0.00000  test    mintime= 0.003441
                 avx_ChirpData_i 0.003587 0.00000  test    mintime= 0.003252
            avx_fma4_ChirpData_a not supported by system
           avx_fma4_ChirpData_d4 not supported by system
           avx_fma4_ChirpData_d6 not supported by system
           avx_fma4_ChirpData_d8 not supported by system
            avx_fma4_ChirpData_e not supported by system
                 avx_ChirpData_d 0.002841 0.00000  choice

                   Test duration     8.87 seconds

Ftst_v7 completed successfully.
=========================================================

i7-2600K @4.7GHz (Boinc suspended):

=========================================================
Ftst_v7_J54_Chirponly started.

Optimal function choices:
--------------------------------------------------------
                            name   timing   error
--------------------------------------------------------
                     v_ChirpData 0.003799 0.00000  test    mintime= 0.002485
                   fpu_ChirpData 0.008702 0.00000  test    mintime= 0.008688
               fpu_opt_ChirpData 0.003864 0.00000  test    mintime= 0.002353
             sse1_ChirpData_ak8e 0.004217 0.00000  test    mintime= 0.004188
              sse2_ChirpData_ak8 0.003165 0.00000  test    mintime= 0.003149
              sse3_ChirpData_ak8 0.002986 0.00000  test    mintime= 0.002965
                 avx_ChirpData_a 0.001482 0.00000  test    mintime= 0.001472
                 avx_ChirpData_b 0.001644 0.00000  test    mintime= 0.001640
                 avx_ChirpData_c 0.001485 0.00000  test    mintime= 0.001483
                 avx_ChirpData_d 0.001398 0.00000  test    mintime= 0.001375
                 avx_ChirpData_e 0.001535 0.00000  test    mintime= 0.001533
                 avx_ChirpData_f 0.001587 0.00000  test    mintime= 0.001578
                 avx_ChirpData_g 0.001639 0.00000  test    mintime= 0.001632
                 avx_ChirpData_h 0.002034 0.00000  test    mintime= 0.002018
                 avx_ChirpData_i 0.001738 0.00000  test    mintime= 0.001735
            avx_fma4_ChirpData_a not supported by system
           avx_fma4_ChirpData_d4 not supported by system
           avx_fma4_ChirpData_d6 not supported by system
           avx_fma4_ChirpData_d8 not supported by system
            avx_fma4_ChirpData_e not supported by system
                 avx_ChirpData_d 0.001398 0.00000  choice

            Second run

                     v_ChirpData 0.003811 0.00000  test    mintime= 0.002484
                   fpu_ChirpData 0.008764 0.00000  test    mintime= 0.008694
               fpu_opt_ChirpData 0.003714 0.00000  test    mintime= 0.002344
             sse1_ChirpData_ak8e 0.004225 0.00000  test    mintime= 0.004195
              sse2_ChirpData_ak8 0.003157 0.00000  test    mintime= 0.003152
              sse3_ChirpData_ak8 0.002983 0.00000  test    mintime= 0.002963
                 avx_ChirpData_a 0.001472 0.00000  test    mintime= 0.001471
                 avx_ChirpData_b 0.001644 0.00000  test    mintime= 0.001639
                 avx_ChirpData_c 0.001484 0.00000  test    mintime= 0.001481
                 avx_ChirpData_d 0.001377 0.00000  test    mintime= 0.001374
                 avx_ChirpData_e 0.001533 0.00000  test    mintime= 0.001530
                 avx_ChirpData_f 0.001586 0.00000  test    mintime= 0.001580
                 avx_ChirpData_g 0.001633 0.00000  test    mintime= 0.001630
                 avx_ChirpData_h 0.002026 0.00000  test    mintime= 0.002010
                 avx_ChirpData_i 0.001737 0.00000  test    mintime= 0.001734
            avx_fma4_ChirpData_a not supported by system
           avx_fma4_ChirpData_d4 not supported by system
           avx_fma4_ChirpData_d6 not supported by system
           avx_fma4_ChirpData_d8 not supported by system
            avx_fma4_ChirpData_e not supported by system
                 avx_ChirpData_d 0.001377 0.00000  choice

            Third run

                     v_ChirpData 0.003803 0.00000  test    mintime= 0.002487
                   fpu_ChirpData 0.008781 0.00000  test    mintime= 0.008689
               fpu_opt_ChirpData 0.003718 0.00000  test    mintime= 0.002357
             sse1_ChirpData_ak8e 0.004211 0.00000  test    mintime= 0.004175
              sse2_ChirpData_ak8 0.003170 0.00000  test    mintime= 0.003150
              sse3_ChirpData_ak8 0.002982 0.00000  test    mintime= 0.002965
                 avx_ChirpData_a 0.001477 0.00000  test    mintime= 0.001472
                 avx_ChirpData_b 0.001644 0.00000  test    mintime= 0.001640
                 avx_ChirpData_c 0.001492 0.00000  test    mintime= 0.001482
                 avx_ChirpData_d 0.001377 0.00000  test    mintime= 0.001374
                 avx_ChirpData_e 0.001535 0.00000  test    mintime= 0.001532
                 avx_ChirpData_f 0.001589 0.00000  test    mintime= 0.001575
                 avx_ChirpData_g 0.001633 0.00000  test    mintime= 0.001630
                 avx_ChirpData_h 0.002043 0.00000  test    mintime= 0.002011
                 avx_ChirpData_i 0.001739 0.00000  test    mintime= 0.001733
            avx_fma4_ChirpData_a not supported by system
           avx_fma4_ChirpData_d4 not supported by system
           avx_fma4_ChirpData_d6 not supported by system
           avx_fma4_ChirpData_d8 not supported by system
            avx_fma4_ChirpData_e not supported by system
                 avx_ChirpData_d 0.001377 0.00000  choice

                   Test duration     5.67 seconds

Ftst_v7 completed successfully.

Claggy

Offline Josef W. Segur

  • Janitor o' the Board
  • Knight who says 'Ni!'
  • *****
  • Posts: 3112
Re: AVX Optimized App Development
« Reply #149 on: 28 May 2012, 11:17:57 am »
Although there are still puzzles from the tests so far, with the attached J55 I've added another dimension to the tests. J54 and earlier have been doing full Mebisample chirping as needed before doing Gaussian, Pulse, and Triplet finding. For cases where that's not needed, AK_v8 becomes more cache friendly by subdividing. So I modified all the chirp functions to support that, and J55 does testing at 128K and 32K in addition. The timings ought to be about 1/8 and 1/32 of the full length tests.

I do appreciate the testing, and am glad the Ivy Bridge system reacted like other Intel CPUs. Whatever form of dispatch is eventually used, keeping the number of code paths low will be more efficient.
                                         Joe

 

Welcome, Guest.
Please login or register.
 
 
 
Forgot your password?
Members
Total Members: 97
Latest: ToeBee
New This Month: 0
New This Week: 0
New Today: 0
Stats
Total Posts: 59559
Total Topics: 1672
Most Online Today: 57
Most Online Ever: 983
(20 Jan 2020, 03:17:55 pm)
Users Online
Members: 0
Guests: 16
Total: 16
Powered by EzPortal