英特尔多核平台编码优化大赛的优化过程--补充
                      
HouSisong@GMail.com  2007.01.20

tag: 多核编程,sse2,牛顿迭代,代码优化,优化大赛,invsqrt,开方

   主要文章请参看我的《英特尔多核平台编码优化大赛的优化过程》: http://blog.csdn.net/housisong/archive/2007/01/20/1488465.aspx
本文章是其补充;提供一个完整的float实现版本、double到float的手工转换、手工得到invSqrt的粗略起始迭代值 等其它几个不算成功的实现;

    我测试和优化过程中用的 CPU:AMD64x2 3600+ (双核CPU)
                      操作系统:Windows XP 32bit
                        编译器:Visual Studio 2005

大赛公布的原始代码执行时间          3.97秒


一个float完整实现版本(牺牲了计算精度),源代码如下:
(如果用汇编实现应该还可以把速度提高一些,或者使用ICC编译器:)

/* compute the potential energy of a collection of */
/* particles interacting via pairwise potential    */
#include 
<stdio.h>
#include 
<stdlib.h>
#include 
<math.h>
#include 
<windows.h>
#include   
<xmmintrin.h>//使用SSE1
#include   <process.h>
#include   
<vector>


////////////////////////////////////////////////////////////////////////////////////////////////////////////////

//作者:侯思松  HouSisong@263.net
//计算结果的精度为float单精度浮点 版本


#define _IS_FAST 
//以牺牲精度的方式加快速度,否则就运算达到float单精度

////////////////////////////////////////////////////////////////////////////////////////////////////////////////

//#define _NEW_TIME_CLOCK

#ifdef _NEW_TIME_CLOCK
    
#define clock_t double
    
double CLOCKS_PER_SEC=0.0;
    inline 
double
 clock() {
        __int64 result;
        
if (CLOCKS_PER_SEC==0
)
        {
            QueryPerformanceFrequency((LARGE_INTEGER 
*)&
result);
            CLOCKS_PER_SEC
=(double
)result;
        }
        QueryPerformanceCounter((LARGE_INTEGER 
*)&
result);
        
return (double
)result;
    }
#else

  #include 
<time.h>
#endif

#define _IS_USES_MY_RAND
//单线程执行rand函数,所以使用自定义rand是安全的
                                              
const long DefthreadCount=2//1,2,4,8,16,..   把计算任务分成多个任务并行执行



float& m128_value(__m128& x,const long index) { return ((float*)(&x))[index]; }

#define NPARTS 1000

#define NITER 201
#define DIMS 3

#ifdef _IS_USES_MY_RAND
    
class CMyRand
    {
    
private
:
        unsigned 
long
 _my_holdrand;
    
public
:
        CMyRand():_my_holdrand(
1
){}
        inline 
int _my_rand (void
)
        {
            unsigned 
long result=_my_holdrand * 214013 + 2531011
;
            _my_holdrand 
=
result;
            
return  ( (result>>16&
 RAND_MAX );
        }
    };
    CMyRand _MyRand;
    inline 
int _my_rand (void){ return
 _MyRand._my_rand(); }
#else

    
#define  _my_rand  rand
#endif

int rand( void );
int
 computePot();
void initPositions(void
);
void updatePositions(void
);

__declspec(align(
16)) float r[DIMS][(NPARTS+3)/4*4];  //16byte对齐

double pot;

int
 main() {
   
int
 i;
   clock_t start, stop;
   
//char ctmp; std::cin>>ctmp;


   initPositions();
   updatePositions();
 
   start
=clock();
   
for( i=0; i<NITER; i++
 ) {
          pot 
= 0.0
;
     computePot();
      
if (i%10 == 0

      {     
     printf(
"%5d: Potential: %20.7f "
, i, pot);}
     updatePositions();

   }
   pot 
= 0.0
;
   stop
=
clock();
   printf (
"Seconds = %10.9f ",(double)(stop-start)/
 CLOCKS_PER_SEC);
   
   
return 0
;
}
 
 
void
 initPositions() {
   
int
 i, j;
   
for( i=0; i<DIMS; i++
 ){
       
for( j=0; j<NPARTS; j++
 ) 
            r[i][j]
= (float)( 0.5 + _my_rand() *(1.0/
RAND_MAX) );
   }
}
 
void
 updatePositions() {
   
int
  i,j;

   
for (i=0;i<DIMS;++
i)
   {
       
for( j=0; j<NPARTS; ++
j )
       {
            r[i][j] 
-=(float)( 0.5 + _my_rand() *(1.0/
RAND_MAX) );
       }
   }
}

struct
 TWorkData
{
    
long
     iBegin;
    
long
     iEnd;
    
double
   fResult;
};

const __m128  xmms1_5={ (1.5),(1.5),(1.5),(1.5
) };
const __m128  xmms_0_5={ (-0.5),(-0.5),(-0.5),(-0.5
) };

void computePotPart_forj(int i,__m128*
 pResult)
{
      __m128 lcpot
=
_mm_setzero_ps();
      __m128 _mmi0
=_mm_set1_ps(-r[0
][i]);
      __m128 _mmi1
=_mm_set1_ps(-r[1
][i]);
      __m128 _mmi2
=_mm_set1_ps(-r[2
][i]);
      
int j=0
;
      
//for( j=0; j<i-1; j++ ) {      //
"j<i-1"比较奇怪,疑为"j<i"  !  
      
//* 把这个循环做4次展开

      for(;j+4<i;j+=4)
      {
          __m128 sm0
=_mm_add_ps(*(__m128*)&r[0
][j],_mmi0);
          sm0
=
_mm_mul_ps(sm0,sm0);
          __m128 sm1
=_mm_add_ps(*(__m128*)&r[1
][j],_mmi1);
          sm1
=
_mm_mul_ps(sm1,sm1);
          __m128 sm2
=_mm_add_ps(*(__m128*)&r[2
][j],_mmi2);
          sm2
=
_mm_mul_ps(sm2,sm2);
          sm0
=
_mm_add_ps(sm0,sm1);
          sm0
=
_mm_add_ps(sm0,sm2);

            sm1
=_mm_rsqrt_ps(sm0);  // 1/sqrt(,,,)


          #ifndef _IS_FAST
            
//牛顿迭代,提高开方精度
            
// 1/sqrt(a)的牛顿迭代公式x_next=(3-a*x*x)*x*0.5 =( 1.5 + (a*(-0.5)) * x*x) ) * x 

            sm0=_mm_mul_ps(sm0,xmms_0_5); //a*(-0.5)
            sm0=_mm_mul_ps(sm0,sm1);
            sm0
=
_mm_mul_ps(sm0,sm1); 
            sm0
=
_mm_add_ps(sm0,xmms1_5); 
            sm0
=
_mm_mul_ps(sm0,sm1); 
          
#else

            sm0
=sm1; 
          
#endif


          lcpot
=_mm_add_ps(lcpot,sm0);
      }
//*/

      for(;j<i-1;++j)
      {
          __m128 sm0
=_mm_set_ss(r[0
][j]);
          sm0
=
_mm_add_ss(sm0,_mmi0);
          sm0
=
_mm_mul_ss(sm0,sm0);
          __m128 sm1
=_mm_set_ss(r[1
][j]);
          sm1
=
_mm_add_ss(sm1,_mmi1);
          sm1
=
_mm_mul_ss(sm1,sm1);
          __m128 sm2
=_mm_set_ss(r[2
][j]);
          sm2
=
_mm_add_ss(sm2,_mmi2);
          sm2
=
_mm_mul_ss(sm2,sm2);
          sm0
=
_mm_add_ss(sm0,sm1);
          sm0
=
_mm_add_ss(sm0,sm2);

          sm1
=
_mm_rsqrt_ss(sm0); 
          #ifndef _IS_FAST
            
//
牛顿迭代,提高开方精度
            
// 1/sqrt(a)的牛顿迭代公式x_next=(3-a*x*x)*x*0.5 =( 1.5 + (a*(-0.5)) * x*x) ) * x 

            sm0=_mm_mul_ps(sm0,xmms_0_5); //a*(-0.5)
            sm0=_mm_mul_ps(sm0,sm1);
            sm0
=
_mm_mul_ps(sm0,sm1); 
            sm0
=
_mm_add_ps(sm0,xmms1_5); 
            sm0
=
_mm_mul_ps(sm0,sm1); 
          
#else

            sm0
=sm1; 
          
#endif


          lcpot
=_mm_add_ss(lcpot,sm0);
      }
      
*pResult=_mm_add_ps(*
pResult,lcpot);
}

void computePotPart(TWorkData*
 work_data) {
   
int
 i;

   __m128 lcpot
=
_mm_setzero_ps();

  
// #pragma omp parallel for schedule(static)

  for( i=work_data->iBegin; i<work_data->iEnd; i++ ) {
      computePotPart_forj(i,
&
lcpot);
   }

   __m128 dt0;      
   dt0
=
_mm_movehl_ps(lcpot,lcpot);
   lcpot
=
_mm_add_ps(lcpot,dt0); 
   dt0
=_mm_shuffle_ps(lcpot,lcpot,1
);
   lcpot
=
_mm_add_ss(lcpot,dt0); 

   work_data
->fResult=m128_value(lcpot,0
);
}

/////////////////////////////////////////////////////////////

//工作线程池 TWorkThreadPool
//
用于把一个任务拆分成多个线程任务
//
要求每个小任务任务量相近
//todo:改成任务领取模式

class TWorkThreadPool;

typedef 
void (*TThreadCallBack)(void *
 pData);
enum TThreadState{ thrStartup=0
, thrReady,  thrBusy, thrTerminate, thrDeath };

class
 TWorkThread
{
public
:
    
volatile
 HANDLE             thread_handle;
    
volatile enum
 TThreadState  state;
    
volatile
 TThreadCallBack    func;
    
volatile void *             pdata;  //work data     

    volatile HANDLE             waitfor_event;
    TWorkThreadPool
*
            pool;
    
volatile
 DWORD              thread_ThreadAffinityMask;

    TWorkThread() { memset(
this,0,sizeof
(TWorkThread));  }
};

void do_work_end(TWorkThread*
 thread_data);

void __cdecl thread_dowork(TWorkThread* thread_data) //void __stdcall thread_dowork(TWorkThread* thread_data)

{
    
volatile TThreadState& state=thread_data->
state;
    SetThreadAffinityMask(GetCurrentThread(),thread_data
->
thread_ThreadAffinityMask);
    state 
=
 thrStartup;

    
while(true
)
    {
        WaitForSingleObject(thread_data
->waitfor_event, -1
);
        
if(state ==
 thrTerminate)
            
break
;

        state 
=
 thrBusy;
        
volatile TThreadCallBack& func=thread_data->
func;
        
if (func!=0
)
            func((
void *)thread_data->
pdata);
        do_work_end(thread_data);
    }
    state 
=
 thrDeath;
    _endthread();
//ExitThread(0);

}

class
 TWorkThreadPool
{
private
:
    
volatile
 HANDLE             thread_event;
    
volatile
 HANDLE             new_thread_event;
    std::vector
<TWorkThread>
    work_threads;
    inline 
int passel_count() const { return (int)work_threads.size()+1
; }
    
void inti_threads(long
 work_count) {
        SYSTEM_INFO SystemInfo;
        GetSystemInfo(
&
SystemInfo);
        
long cpu_count =
SystemInfo.dwNumberOfProcessors;
        
long best_count =
cpu_count;
        
if (cpu_count>work_count) best_count=
work_count;

        
long newthrcount=best_count - 1
;
        work_threads.resize(newthrcount);
        thread_event 
= CreateSemaphore(00,newthrcount , 0
);
        new_thread_event 
= CreateSemaphore(00,newthrcount , 0
);
        
for(long i = 0; i < newthrcount; ++
i)
        {
            work_threads[i].waitfor_event
=
thread_event;
            work_threads[i].state 
=
 thrTerminate;
            work_threads[i].pool
=this
;
            work_threads[i].thread_ThreadAffinityMask
=1<<(i+1
);
            
//DWORD thr_id;

            work_threads[i].thread_handle =(HANDLE)_beginthread((void (__cdecl *)(void *))thread_dowork, 0, (void*)&work_threads[i]); 
                
//CreateThread(0, 0, (LPTHREAD_START_ROUTINE)thread_dowork,(void*) &work_threads[i], 0, &thr_id);

        }
        SetThreadAffinityMask(GetCurrentThread(),
0x01
);
        
for(long i = 0; i < newthrcount; ++
i)
        {
            
while(true
) { 
                
if (work_threads[i].state == thrStartup) break
;
                
else Sleep(0
);
            }
            work_threads[i].state 
=
 thrReady;
        }
    }
    
void free_threads(void
)
    {
        
long thr_count=(long
)work_threads.size();
        
long
 i;
        
for(i = 0; i <thr_count; ++
i)
        {
            
while(true
) {  
                
if (work_threads[i].state == thrReady) break
;
                
else Sleep(0
);
            }
            work_threads[i].state
=
thrTerminate;
        }
        
if (thr_count>0
)
            ReleaseSemaphore(thread_event,thr_count, 
0
);
        
for(i = 0; i <thr_count; ++
i)
        {
            
while(true
) {  
                
if (work_threads[i].state == thrDeath) break
;
                
else Sleep(0
);
            }
        }
        CloseHandle(thread_event);
        CloseHandle(new_thread_event);
        work_threads.clear();
    }
    
void passel_work(TThreadCallBack work_proc,void** word_data_list,int
 work_count)    {
        
//
assert(work_count>=1);
        
//assert(work_count<=passel_count());

        if (work_count==1)
        {
            work_proc(word_data_list[
0
]);
        }
        
else

        {
            
long i;
            
long thr_count=(long
)work_threads.size();
            
for(i = 0; i < work_count-1++
i)
            {
                work_threads[i].func  
=
 work_proc;
                work_threads[i].pdata  
=
word_data_list[i];
                work_threads[i].state 
=
 thrBusy;
            }
            
for(i =  work_count-1; i < thr_count; ++
i)
            {
                work_threads[i].func  
= 0
;
                work_threads[i].pdata  
=0
;
                work_threads[i].state 
=
 thrBusy;
            }
            
if (thr_count>0
)
                ReleaseSemaphore(thread_event,thr_count, 
0
);

            
//current thread do a work

            work_proc(word_data_list[work_count-1]);


            
//wait for work finish  

            for(i = 0; i <thr_count; ++i)
            {
                
while(true
) {  
                    
if (work_threads[i].state == thrReady) break
;
                    
else Sleep(0
);
                }
            }
            std::swap(thread_event,new_thread_event);
        }
    }
public
:
    
explicit TWorkThreadPool(unsigned long work_count):thread_event(0
),work_threads() { 
        
//assert(work_count>=1);  

        inti_threads(work_count);            }
    
~
TWorkThreadPool() {  free_threads(); }
    
long best_work_count() const { return
 passel_count(); }
    
void work_execute(TThreadCallBack work_proc,void** word_data_list,int
 work_count)    {        
        
while (work_count>0
)
        {
            
long
 passel_work_count;
            
if (work_count>=
passel_count())
                passel_work_count
=
passel_count();
            
else

                passel_work_count
=work_count;

            passel_work(work_proc,word_data_list,passel_work_count);

            work_count
-=
passel_work_count;
            word_data_list
=&
word_data_list[passel_work_count];
        }
    }
    inline 
void DoWorkEnd(TWorkThread*
 thread_data){ 
        thread_data
->waitfor_event=
new_thread_event; 
        thread_data
->func=0
;
        thread_data
->state =
 thrReady;
    }
};
void do_work_end(TWorkThread*
 thread_data)
{
    thread_data
->pool->
DoWorkEnd(thread_data);
}
//TWorkThreadPool end;

////////////////////////////////////////

static TWorkThreadPool g_work_thread_pool(DefthreadCount);//线程池

int computePot() {
    
static bool is_inti_work=false
;
    
static
 TWorkData   work_list[DefthreadCount];
    
static TWorkData*
  pwork_list[DefthreadCount];

    
int
 i;
    
if (!
is_inti_work)
    {
        
long fi=0
;
        
for (int i=0;i<DefthreadCount;++
i)
        {
            
if (0==
i)
                work_list[i].iBegin
=0
;
            
else

                work_list[i].iBegin
=work_list[i-1].iEnd;
            
if (i==DefthreadCount-1
)
                work_list[i].iEnd
=(long
)NPARTS;
            
else

                work_list[i].iEnd
=(long)( (double)(NPARTS-1)*sqrt((double)(i+1)/DefthreadCount)+1+0.5 );
            pwork_list[i]
=&
work_list[i];
        }
        is_inti_work
=true
;
    }

    g_work_thread_pool.work_execute((TThreadCallBack)computePotPart,(
void **)(&pwork_list[0
]),DefthreadCount);


    
for (i=0;i<DefthreadCount;++
i)
       pot
+=
work_list[i].fResult;

    
return 0
;
}

代码执行时间          0.125秒    相对于原始代码加速比:3176.0%


注意到一个事实,float比double版快出了很多,why?
原来,double版中为了使用SSE而在float和double之间的转换花费了很多的时间!
我不知道这个问题是AMD64x2 CPU的问题还是在酷睿2上也一样;
double版中为了优化这个转换,我预先保存一份r数组的float转化值计算,这样就能节约double到float转换;
(double版完整源代码参见《英特尔多核平台编码优化大赛的优化过程》)
定义一个临时数组rf:
  __declspec(align(16)) float  rf[DIMS][(NPARTS+3)/4*4];
  修改updatePositions函数:

void updatePositions() {
   
int
  i,j;

   
for (i=0;i<DIMS;++
i)
   {
       
for( j=0; j<NPARTS; ++
j )
       {
      r[i][j] 
-=0.5 + _my_rand() *(1.0/
RAND_MAX) );
   rf[i][j]
=(float
)r[i][j];
       }
   }
}


然后重新实现computePotPart_forj:

void computePotPart_forj_double_float(int i,__m128d* pResult)
{
      __m128d lcpot
=
_mm_setzero_pd();
      __m128d _mmi0
=_mm_set1_pd(-r[0
][i]);
      __m128d _mmi1
=_mm_set1_pd(-r[1
][i]);
      __m128d _mmi2
=_mm_set1_pd(-r[2
][i]);
      __m128 _mmi0f
=_mm_set1_ps(-rf[0
][i]);
      __m128 _mmi1f
=_mm_set1_ps(-rf[1
][i]);
      __m128 _mmi2f
=_mm_set1_ps(-rf[2
][i]);
      
int j=0
;
      
//*

      for(;j+4<i;j+=4)
      {
          __m128d dm0
=_mm_add_pd(*(__m128d*)&r[0
][j],_mmi0);
          dm0
=
_mm_mul_pd(dm0,dm0);
          __m128d dm1
=_mm_add_pd(*(__m128d*)&r[1
][j],_mmi1);
          dm1
=
_mm_mul_pd(dm1,dm1);
          __m128d dm2
=_mm_add_pd(*(__m128d*)&r[2
][j],_mmi2);
          dm2
=
_mm_mul_pd(dm2,dm2);
          dm0
=
_mm_add_pd(dm0,dm1);
          dm0
=
_mm_add_pd(dm0,dm2);

          __m128d dm5
=_mm_add_pd(*(__m128d*)&r[0][j+2
],_mmi0);
          dm5
=
_mm_mul_pd(dm5,dm5);
          __m128d dm6
=_mm_add_pd(*(__m128d*)&r[1][j+2
],_mmi1);
          dm6
=
_mm_mul_pd(dm6,dm6);
          dm2
=_mm_add_pd(*(__m128d*)&r[2][j+2
],_mmi2);
          dm2
=
_mm_mul_pd(dm2,dm2);
          dm5
=
_mm_add_pd(dm5,dm6);
          dm5
=
_mm_add_pd(dm5,dm2);

          
//
用SSE的rsqrt近似计算1/sqrt(a); 然后使用牛顿迭代来提高开方精度
          
// 1/sqrt(a)的牛顿迭代公式x_next=(3-a*x*x)*x*0.5 =( 1.5 + (a*(-0.5)) * x*x) ) * x 

          {
             
/*
 __m128 sm0=_mm_cvtpd_ps(dm0);
              __m128 sm1=_mm_cvtpd_ps(dm5);
              sm0=_mm_movelh_ps(sm0,sm1);
*/


              __m128 sm0
=_mm_add_ps(*(__m128*)&rf[0][j],_mmi0f);
              sm0
=
_mm_mul_ps(sm0,sm0);
              __m128 sm1
=_mm_add_ps(*(__m128*)&rf[1
][j],_mmi1f);
              sm1
=
_mm_mul_ps(sm1,sm1);
              __m128 sm2
=_mm_add_ps(*(__m128*)&rf[2
][j],_mmi2f);
              sm2
=
_mm_mul_ps(sm2,sm2);
              sm0
=
_mm_add_ps(sm0,sm1);
              sm0
=
_mm_add_ps(sm0,sm2);

              __m128 sma
=_mm_mul_ps(sm0,xmms_0_5); //a*(-0.5)

              sm0=_mm_rsqrt_ps(sm0); //计算1/sqrt(a)
              
//牛顿迭代,提高开方精度

              sma=_mm_mul_ps(sma,sm0);
              sma
=
_mm_mul_ps(sma,sm0); 
              sma
=
_mm_add_ps(sma,xmms1_5); 
              sm0
=
_mm_mul_ps(sm0,sma); 

                  __m128d dma
=_mm_mul_pd(dm0,xmmd_0_5); //a*(-0.5)

                  __m128d dmb=_mm_mul_pd(dm5,xmmd_0_5);

              sm1
=
_mm_movehl_ps(sm1,sm0);
              dm0
=_mm_cvtps_pd(sm0); // 

              dm5=_mm_cvtps_pd(sm1); // 

              
//再次迭代,加倍精度 

                  dma=_mm_mul_pd(dma,dm0);
                  dmb
=
_mm_mul_pd(dmb,dm5);
                  dma
=
_mm_mul_pd(dma,dm0);
                  dmb
=
_mm_mul_pd(dmb,dm5);
                  dma
=
_mm_add_pd(dma,xmmd1_5);
                  dmb
=
_mm_add_pd(dmb,xmmd1_5);
                  dm0
=
_mm_mul_pd(dm0,dma);
                  dm5
=
_mm_mul_pd(dm5,dmb);
          }

          lcpot
=
_mm_add_pd(lcpot,dm0);
          lcpot
=
_mm_add_pd(lcpot,dm5);
      }

      
for (;j+1<i;++
j)
      {
          __m128d dm0
=_mm_set_sd(r[0
][j]);
          dm0
=
_mm_add_pd(dm0,_mmi0);
          dm0
=
_mm_mul_pd(dm0,dm0);
          __m128d dm1
=_mm_set_sd(r[1
][j]);
          dm1
=
_mm_add_sd(dm1,_mmi1);
          dm1
=
_mm_mul_sd(dm1,dm1);
          __m128d dm2
=_mm_set_sd(r[2
][j]);
          dm2
=
_mm_add_sd(dm2,_mmi2);
          dm2
=
_mm_mul_sd(dm2,dm2);
          dm0
=
_mm_add_sd(dm0,dm1);
          dm0
=
_mm_add_sd(dm0,dm2);

         { 
              __m128 sm0
=
_mm_cvtpd_ps(dm0);
              __m128d dma
=_mm_mul_sd(dm0,xmmd_0_5); //a*(-0.5)

              sm0=_mm_rsqrt_ss(sm0); //计算1/sqrt(a)
              dm0=_mm_cvtps_pd(sm0); // 
              
//牛顿迭代,提高开方精度

              dm1=_mm_mul_sd(dm0,dm0);
              dm1
=
_mm_mul_sd(dm1,dma);
              dm1
=
_mm_add_sd(dm1,xmmd1_5);
              dm0
=
_mm_mul_sd(dm0,dm1);

              
//再次迭代

                  dma=_mm_mul_sd(dma,dm0);
                  dma
=
_mm_mul_sd(dma,dm0);
                  dma
=
_mm_add_sd(dma,xmmd1_5);
                  dm0
=
_mm_mul_sd(dm0,dma);
          }

          lcpot
=
_mm_add_sd(lcpot,dm0);
      }

      
*pResult=_mm_add_pd(*
pResult,lcpot);
}

该代码对速度有很小的改进,但精度确只到小数点后5/6位(过早的降低了运算精度,后面的计算使误差放大),
再增加一次牛顿叠代就能弥补精度的缺失,但速度上就没有优势了;只能放弃该方案;


既然硬件的float和double之间的转换慢,那我手工来写一个会不会更好一些呢? (比较奇怪的尝试:)
见代码:
(该函数利用了double/float的IEE浮点编码结构)

const __m64   _mmd2f_esub =_mm_set_pi32((1023-127<< (52-32),0); 
const __m128i _xmmd2f_esub=
_mm_set_epi64(_mmd2f_esub,_mmd2f_esub); 
void computePotPart_forj_d2f(int i,__m128d*
 pResult)
{
      __m128d lcpot
=
_mm_setzero_pd();
      __m128d _mmi0
=_mm_set1_pd(-r[0
][i]);
      __m128d _mmi1
=_mm_set1_pd(-r[1
][i]);
      __m128d _mmi2
=_mm_set1_pd(-r[2
][i]);
      
int j=0
;
  
//*

      for(;j+4<i;j+=4)
      {
          __m128d dm0
=_mm_add_pd(*(__m128d*)&r[0
][j],_mmi0);
          dm0
=
_mm_mul_pd(dm0,dm0);
          __m128d dm1
=_mm_add_pd(*(__m128d*)&r[1
][j],_mmi1);
          dm1
=
_mm_mul_pd(dm1,dm1);
          __m128d dm2
=_mm_add_pd(*(__m128d*)&r[2
][j],_mmi2);
          dm2
=
_mm_mul_pd(dm2,dm2);
          dm0
=
_mm_add_pd(dm0,dm1);
          dm0
=
_mm_add_pd(dm0,dm2);

          __m128d dm5
=_mm_add_pd(*(__m128d*)&r[0][j+2
],_mmi0);
          dm5
=
_mm_mul_pd(dm5,dm5);
          __m128d dm6
=_mm_add_pd(*(__m128d*)&r[1][j+2
],_mmi1);
          dm6
=
_mm_mul_pd(dm6,dm6);
          dm2
=_mm_add_pd(*(__m128d*)&r[2][j+2
],_mmi2);
          dm2
=
_mm_mul_pd(dm2,dm2);
          dm5
=
_mm_add_pd(dm5,dm6);
          dm5
=
_mm_add_pd(dm5,dm2);

            
//
用SSE的rsqrt近似计算1/sqrt(a); 然后使用牛顿迭代来提高开方精度
          
// 1/sqrt(a)的牛顿迭代公式x_next=(3-a*x*x)*x*0.5 =( 1.5 + (a*(-0.5)) * x*x) ) * x 

          {
           __m128d dma
=_mm_mul_pd(dm0,xmmd_0_5); //a*(-0.5)

           __m128d dmb=_mm_mul_pd(dm5,xmmd_0_5);

            (
*(__m128i*)&dm0)=_mm_sub_epi64((*(__m128i*)&
dm0),_xmmd2f_esub);
            (
*(__m128i*)&dm5)=_mm_sub_epi64((*(__m128i*)&
dm5),_xmmd2f_esub);
                       
          (
*(__m128i*)&dm0)=_mm_srli_epi64(*(__m128i*)&dm0,32-3
);
            (
*(__m128i*)&dm5)=_mm_srli_epi64(*(__m128i*)&dm5,32-3
);
            (
*(__m128i*)&dm0)=_mm_slli_epi64(*(__m128i*)&dm0,32
);
          __m128 sm0;
            (
*(__m128i*)&sm0)=_mm_xor_si128(*(__m128i*)&dm0,*(__m128i*)&
dm5);

          __m128 sma
=_mm_mul_ps(sm0,xmms_0_5); //a*(-0.5)

          sm0=_mm_rsqrt_ps(sm0); //计算1/sqrt(a)
                      
//牛顿迭代,提高开方精度

                      sma=_mm_mul_ps(sma,sm0);
                      sma
=
_mm_mul_ps(sma,sm0); 
                      sma
=
_mm_add_ps(sma,xmms1_5); 
                      sm0
=
_mm_mul_ps(sm0,sma); 

          (
*(__m128i*)&dm0)=_mm_srli_epi64(*(__m128i*)&sm0,3); // 

          (*(__m128i*)&dm5)=_mm_slli_epi64(*(__m128i*)&sm0,32); // 
          (*(__m128i*)&dm5)=_mm_srli_epi64(*(__m128i*)&dm5,3); // 
                      (*(__m128i*)&dm0)=_mm_add_epi64((*(__m128i*)&dm0),_xmmd2f_esub);
                      (
*(__m128i*)&dm5)=_mm_add_epi64((*(__m128i*)&
dm5),_xmmd2f_esub);

          
//再次迭代,加倍精度 

          dma=_mm_mul_pd(dma,dm0);
          dmb
=
_mm_mul_pd(dmb,dm5);
          dma
=
_mm_mul_pd(dma,dm0);
          dmb
=
_mm_mul_pd(dmb,dm5);
          dma
=
_mm_add_pd(dma,xmmd1_5);
          dmb
=
_mm_add_pd(dmb,xmmd1_5);
          dm0
=
_mm_mul_pd(dm0,dma);
          dm5
=
_mm_mul_pd(dm5,dmb);
          }

          lcpot
=
_mm_add_pd(lcpot,dm0);
          lcpot
=
_mm_add_pd(lcpot,dm5);
  }

  
for (;j+1<i;++
j)
      {
          __m128d dm0
=_mm_set_sd(r[0
][j]);
          dm0
=
_mm_add_pd(dm0,_mmi0);
          dm0
=
_mm_mul_pd(dm0,dm0);
          __m128d dm1
=_mm_set_sd(r[1
][j]);
          dm1
=
_mm_add_sd(dm1,_mmi1);
          dm1
=
_mm_mul_sd(dm1,dm1);
          __m128d dm2
=_mm_set_sd(r[2
][j]);
          dm2
=
_mm_add_sd(dm2,_mmi2);
          dm2
=
_mm_mul_sd(dm2,dm2);
          dm0
=
_mm_add_sd(dm0,dm1);
          dm0
=
_mm_add_sd(dm0,dm2);

        { 
          __m128 sm0
=
_mm_cvtpd_ps(dm0);
          __m128d dma
=_mm_mul_sd(dm0,xmmd_0_5); //a*(-0.5)

          sm0=_mm_rsqrt_ss(sm0); //计算1/sqrt(a)
          dm0=_mm_cvtps_pd(sm0); // 
                      
//牛顿迭代,提高开方精度

          dm1=_mm_mul_sd(dm0,dm0);
          dm1
=
_mm_mul_sd(dm1,dma);
          dm1
=
_mm_add_sd(dm1,xmmd1_5);
          dm0
=
_mm_mul_sd(dm0,dm1);

          
//再次迭代

          dma=_mm_mul_sd(dma,dm0);
          dma
=
_mm_mul_sd(dma,dm0);
          dma
=
_mm_add_sd(dma,xmmd1_5);
          dm0
=
_mm_mul_sd(dm0,dma);
          }

          lcpot
=
_mm_add_sd(lcpot,dm0);
      }

  
*pResult=_mm_add_pd(*
pResult,lcpot);
}

该函数的速度比原来的代码稍慢:)  放弃之
(我还尝试过这样的代码(代码没有保存:( )
代码原理和上面的很接近,利用IEE的浮点格式,强制把double转成float后(通过指数平衡和移位),
分两路使用_mm_rsqrt_ps、牛顿叠代等;但这个慢慢,也放弃了)

 

既然硬件的float和double之间的转换慢,那我就不转换来看看怎样实现;
不使用SSE的_mm_rsqrt_ps指令,而利用IEE浮点格式生成一个粗略的近似解,然后迭代(迭代了3次);
(也可以用查表的方式来得到初始解,但在SSE体系中,这种实现很可能得不偿失,所以没有去实现);(该函数利用了double的IEE浮点编码结构)这样以后,速度有了一些提高,但精度还有点不够(大概有6位小数位精度),再次迭代的话就失去了速度优势;
不知道有没有比魔法数0x5fe6ec85,0xe7de30da更好的魔法数:)
放弃;

const __m64   _mmi_mn=_mm_set_pi32(0x5fe6ec85,0xe7de30da);
const __m128i xmmi64_mn=
_mm_set1_epi64(_mmi_mn);
void computePotPart_forj_int(int i,__m128d*
 pResult)
{
      __m128d lcpot
=
_mm_setzero_pd();
      __m128d _mmi0
=_mm_set1_pd(-r[0
][i]);
      __m128d _mmi1
=_mm_set1_pd(-r[1
][i]);
      __m128d _mmi2
=_mm_set1_pd(-r[2
][i]);
        
int j=0
;
         
//*

      for(;j+4<i;j+=4)
      {
          __m128d dm0
=_mm_add_pd(*(__m128d*)&r[0
][j],_mmi0);
          dm0
=
_mm_mul_pd(dm0,dm0);
          __m128d dm1
=_mm_add_pd(*(__m128d*)&r[1
][j],_mmi1);
          dm1
=
_mm_mul_pd(dm1,dm1);
          __m128d dm2
=_mm_add_pd(*(__m128d*)&r[2
][j],_mmi2);
          dm2
=
_mm_mul_pd(dm2,dm2);
          dm0
=
_mm_add_pd(dm0,dm1);
          dm0
=
_mm_add_pd(dm0,dm2);

          __m128d dm5
=_mm_add_pd(*(__m128d*)&r[0][j+2
],_mmi0);
          dm5
=
_mm_mul_pd(dm5,dm5);
          __m128d dm6
=_mm_add_pd(*(__m128d*)&r[1][j+2
],_mmi1);
          dm6
=
_mm_mul_pd(dm6,dm6);
          dm2
=_mm_add_pd(*(__m128d*)&r[2][j+2
],_mmi2);
          dm2
=
_mm_mul_pd(dm2,dm2);
          dm5
=
_mm_add_pd(dm5,dm6);
          dm5
=
_mm_add_pd(dm5,dm2);

          
//
利用IEE double 浮点格式的编码生成1/sqrt(a)的一个近似值; 然后使用牛顿迭代来提高精度
          
// 1/sqrt(a)的牛顿迭代公式x_next=(3-a*x*x)*x*0.5 =( 1.5 + (a*(-0.5)) * x*x) ) * x 

          {
              __m128i xmmi0
=
xmmi64_mn;
              __m128d dma
=_mm_mul_pd(dm0,xmmd_0_5); //a*(-0.5)

              __m128d dmb=_mm_mul_pd(dm5,xmmd_0_5);
              
*(__m128i*)&dm0=_mm_srli_epi64(*(__m128i*)&dm0,1
);
              
*(__m128i*)&dm5=_mm_srli_epi64(*(__m128i*)&dm5,1
);
              
*(__m128i*)&dm0=_mm_sub_epi64(xmmi0,*(__m128i*)&
dm0);
              
*(__m128i*)&dm5=_mm_sub_epi64(xmmi0,*(__m128i*)&
dm5);

              
//迭代,加倍精度


              dm1
=_mm_mul_pd(dma,dm0);
              dm2
=
_mm_mul_pd(dmb,dm5);
              dm1
=
_mm_mul_pd(dm1,dm0);
              dm2
=
_mm_mul_pd(dm2,dm5);
              dm1
=
_mm_add_pd(dm1,xmmd1_5);
              dm2
=
_mm_add_pd(dm2,xmmd1_5);
              dm0
=
_mm_mul_pd(dm0,dm1);
              dm5
=
_mm_mul_pd(dm5,dm2);

              dm1
=
_mm_mul_pd(dma,dm0);
              dm2
=
_mm_mul_pd(dmb,dm5);
              dm1
=
_mm_mul_pd(dm1,dm0);
              dm2
=
_mm_mul_pd(dm2,dm5);
              dm1
=
_mm_add_pd(dm1,xmmd1_5);
              dm2
=
_mm_add_pd(dm2,xmmd1_5);
              dm0
=
_mm_mul_pd(dm0,dm1);
              dm5
=
_mm_mul_pd(dm5,dm2);

              dma
=
_mm_mul_pd(dma,dm0);
              dmb
=
_mm_mul_pd(dmb,dm5);
              dma
=
_mm_mul_pd(dma,dm0);
              dmb
=
_mm_mul_pd(dmb,dm5);
              dma
=
_mm_add_pd(dma,xmmd1_5);
              dmb
=
_mm_add_pd(dmb,xmmd1_5);
              dm0
=
_mm_mul_pd(dm0,dma);
              dm5
=
_mm_mul_pd(dm5,dmb);
              
//精度还有点不够  但再次迭代的话就失去了速度优势

              }

          lcpot
=
_mm_add_pd(lcpot,dm0);
          lcpot
=
_mm_add_pd(lcpot,dm5);
      }

      for (;j+1<i;++j)
      {
          __m128d dm0=_mm_set_sd(r[0][j]);
          dm0=_mm_add_pd(dm0,_mmi0);
          dm0=_mm_mul_pd(dm0,dm0);
          __m128d dm1=_mm_set_sd(r[1][j]);
          dm1=_mm_add_sd(dm1,_mmi1);
          dm1=_mm_mul_sd(dm1,dm1);
          __m128d dm2=_mm_set_sd(r[2][j]);
          dm2=_mm_add_sd(dm2,_mmi2);
          dm2=_mm_mul_sd(dm2,dm2);
          dm0=_mm_add_sd(dm0,dm1);
          dm0=_mm_add_sd(dm0,dm2);
   {
     __m128 sm0=_mm_cvtpd_ps(dm0);
     __m128d dma=_mm_mul_sd(dm0,xmmd_0_5); //a*(-0.5)
     sm0=_mm_rsqrt_ss(sm0); //计算1/sqrt(a)
     dm0=_mm_cvtps_pd(sm0); //
              //牛顿迭代,提高开方精度
     dm1=_mm_mul_sd(dm0,dm0);
     dm1=_mm_mul_sd(dm1,dma);
     dm1=_mm_add_sd(dm1,xmmd1_5);
     dm0=_mm_mul_sd(dm0,dm1);
     //再次迭代
      dma=_mm_mul_sd(dma,dm0);
      dma=_mm_mul_sd(dma,dm0);
      dma=_mm_add_sd(dma,xmmd1_5);
      dm0=_mm_mul_sd(dm0,dma);
    }


          lcpot
=
_mm_add_sd(lcpot,dm0);
      }

  
*pResult=_mm_add_pd(*
pResult,lcpot);
}

 

 还想到一个没有时间去实现的方案:由于SSE和x87是独立的两个硬件,那么可以使它们并行执行;
SSE部件代码不变,但循环做更大的展开,然后让x87承担一路或两路运算;

 

查看全文
如若内容造成侵权/违法违规/事实不符,请联系编程学习网邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

相关文章

  1. BIO和NIO的区别

    BIO(同步阻塞):每一个IO请求都会有一个线程去处理,如果数据没有准备就绪,线程会一直等待。直到数据读取完毕线程才会释放,在此期间,进程不回去做任何其他任务,这种模式会浪费一定的线程资源。NIO(同步非阻塞):NIO的优点在于首先基于缓存读写文件,能够批量操作,然后…...

    2024/5/2 6:01:59
  2. SOP 封装 和 SOIC 封装的区别——细微差别,可以混用

    Author:AXYZdong 自动化专业 工科男 有一点思考,有一点想法,有一点理性! 定个小小目标,努力成为习惯!在最美的年华遇见更好的自己! CSDN@AXYZdong,CSDN首发,AXYZdong原创 唯一博客更新的地址为: 👉 AXYZdong的博客 👈文章目录 问题由来 问题解决 实际区别 其他封…...

    2024/4/19 1:14:30
  3. neo4j使用教程(数据的导入和简单的语句)

    写在前面:在前边出了一个详细的neo4j安装教程之后,写一个简单的neo4j使用教程。 1 数据的导入 数据的导入这里介绍两个常用的方法,语句导入和用cmd命令行导入。 1.1 创建数据 例如,创建两个同学(nodes),属性有学号、姓名、性别和年龄,关系为classmate(relationship)。 …...

    2024/5/2 11:34:49
  4. 手写async await的最简实现(20行搞定)!阿里字节面试必考

    作者:ssh,来源:https://juejin.im/post/5e79e841f265da5726612b6e前言如果让你手写async函数的实现,你是不是会觉得很复杂?这篇文章带你用20行搞定它的核心。经常有人说async函数是generator函数的语法糖,那么到底是怎么样一个糖呢?让我们来一层层的剥开它的糖衣。有的同…...

    2024/4/20 1:49:08
  5. Java编程思想(第4版) PDF

    从本书获得的各项大奖以及来自世界各地的读者评论中,不难看出这是一本经典之作。本书的作者拥有多年教学经验,对C、C++以及Java语言都有独到、深入的见解,以通俗易懂及小而直接的示例解释了一个个晦涩抽象的概念。本书共22章,包括操作符、控制执行流程、访问权限控制、复用…...

    2024/4/18 17:13:29
  6. 【转】C语言中实现循环移位

    C语言中没有提供循环移位的操作符,但可以通过简洁的方式实现循环移位 设一个操作数x有s位则循环左移n位的操作为:(x << n) | (x >> (s - n));同理右移n位位:(x >> n) | (x << (s - n));实际编程中可以用宏定义实现循环移位:#define ROTATE_LEFT(x, …...

    2024/4/20 2:30:23
  7. 阿里面试题BIO和NIO数量问题附答案和代码

    一、问题 BIO 和 NIO 作为 Server 端,当建立了 10 个连接时,分别产生多少个线程? 答案: 因为传统的 IO 也就是 BIO 是同步线程堵塞的,所以每个连接都要分配一个专用线程来处理请求,这样 10 个连接就会创建 10 个线程去处理。而 NIO 是一种同步非阻塞的 I/O 模型,它的核心…...

    2024/4/20 23:18:13
  8. C语言中移位操作符那点事

    最近碰到几个有意思的移位操作符的题目,下面先来看看这几个题目(32bit-CPU架构): 1. int i = 1;printf("%d\n",i<<32); 2. printf("%d\n",1<<32); 3. int i=-1;printf("%d,%d\n",i<<32, i<<31, i&g…...

    2024/4/14 23:11:01
  9. 微信小程序中异步处理终极方案async/await

    【更新说明】 经过微信开发者工具的不断升级,它的“ES6转ES5”的功能也渐渐有了加强,所以要用async/await的话,已经不需要如本文中描述的使用额外的gulp和babel来自己做预编译工作,只需要引入regenerator runtime就可以了。 具体可以参考这个示例代码:https://github.com/…...

    2024/4/14 23:11:01
  10. java之小说爬虫

    借助java的html解析框架Jsoup,可以方便爬取网页,该框架用法见Java html解析器之Jsoup。 代码 该爬虫只有一个文件 WebBookCrawler.java package top.sidian123;import org.jsoup.HttpStatusException; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.…...

    2024/4/14 23:10:59
  11. Linux下安装Neo4j-3.4.5教程

    文章目录下载安装包配置依赖环境编译源码运行Neo4j参考资料 下载安装包 进入https://github.com/neo4j/neo4j,选择releases中的3.4.5版本,下载tar.gz tar -zxvf neo4j-3.4.5.tar.gz cd neo4j-3.4.5配置依赖环境 sudo apt install maven openjdk-8-jdk sudo apt install debhe…...

    2024/4/19 21:55:02
  12. OneSimulator: NetworkLayer类

    NetworkLayer没有子类; NetworkLayer作为DTNHost的成员,维护 和 哪些Host存在Connection; 在World.update()时会被调用 1.NetworkLayer Init流程 在DTNHost.DTNHost()构造时候发生, 成员: Connection连接:private List connections; // connected hosts 通信范围 private do…...

    2024/4/14 23:10:57
  13. 极限编程(XP)12个最佳实践

    现场客户 ( On-site Customer ) 代码规范 ( Code Standards ) 每周40小时工作制 ( 40-hour Week ) 计划博弈 ( Planning Game ): 要求结合项目进展和技术情况,确定下一阶段要开发与发布的系统范围。 系统隐喻 ( System Metaphor ): 通过隐喻来描述系统如何运作、新的功能以…...

    2024/4/19 6:26:07
  14. linux内核之块设备三---块设备排入bio请求

    该接口作为通用的块设备处理bio请求的方式,主要思路是尽可能的合并bio到请求request中,如果可能进一步将连续的request合并;如果不能合并bio,则新建请求,初始化后,plug 互斥方式:加锁,请求队列的锁 涉及到不同的调度算法:将新建的请求添加到调度器的调度队列,由unplu…...

    2024/5/2 12:18:06
  15. 周幺成6.24黄金震荡多头趋势不改,黄金原油后市操作计划

    在这个市场博弈,讲究的是一个学习参与的过程和后期长期稳健获利的结果。一旦产生亏损,要及时总结原因出现在哪里,要让亏损的资金产生他的价值。每做一笔交易,有理有据的进场,且严格遵守这个市场的规则,在一个正确的引导之下,实现长期稳健获利还是比较容易实现的。精准的…...

    2024/4/14 21:43:04
  16. 免费分享9套java视频+8套前端视频+多套python视频+300本电子书+面试简历面试题

    公众号回复:2000,免费领取java全套资源java全套第一套:java全套第二套:java全套第三套:java全套第四套:java全套第五套:java全套第六套java全套第七套java项目实战全套第八套:java项目实战全套第九套:java项目30套Python爬虫与数据分析全套资源python入门第一套python…...

    2024/4/14 21:43:03
  17. C语言之位移位运算符和按位运算符

    近期做串口实验,遇到将十六进制转换成char型字符的问题,程序中用到了位移位运算符和按位或运算符 a. 位移位运算符 << 左移,>>右移运算符左边为移位对象,右边为要移的位数。移位对象为整数值(若 char a = 61, 则 a 也可以作为移位对象,若 char a = ‘a’,则…...

    2024/5/2 10:32:00
  18. 数据库 (图 Neo4j 使用教程)

    图数据库功能: 主要是处理具有深度 相关联的数据,尤其是几何性增长的这种关系,比关系型数据库更具有优势。一个图是由 节点和 关系构成, 节点和关系都可以包含属性。一个关系连接两个节点,必须有一个开始节点和结束节点。Neo4j 的安装下载地址:桌面版(学习使用)http…...

    2024/4/14 23:10:55
  19. Java什么时候提高境界支持async/await写法啊?

    2019独角兽企业重金招聘Python工程师标准>>> 异步编程的最高境界,就是根本不用关心它是不是异步.NET的async/await方式最先达到了这个境界。 和async/await写法相比,Java的什么ExecutorService以及回调之类设计都是惭愧无比的。当然,习惯了也没啥,反正那Java的l…...

    2024/4/29 5:59:32
  20. Java IO 之BIO讲解

    nio介绍 Java BIO是java1.4之前唯一的IO逻辑,在客户端通过socket向服务端传输数据,服务端监听端口,由于传统io读数据的时候,如果数据没有传达,IO会一直等待输入传入,当有请求过来的时候,新起一条线程对数据进行等待,处理.导致每一个链接都对应着服务器的一个线程。在1.4之后出现…...

    2024/4/14 23:10:53

最新文章

  1. C语言/数据结构——每日一题(链表的中间节点)

    一.前言 今天我在LeetCode刷到了一道单链表题&#xff0c;想着和大家分享一下这道题&#xff1a;https://leetcode.cn/problems/middle-of-the-linked-list。废话不多说让我们开始今天的知识分享吧。 二.正文 1.1题目描述 1.2题目分析 这道题有一个非常简便的方法——快慢指…...

    2024/5/2 19:46:43
  2. 梯度消失和梯度爆炸的一些处理方法

    在这里是记录一下梯度消失或梯度爆炸的一些处理技巧。全当学习总结了如有错误还请留言&#xff0c;在此感激不尽。 权重和梯度的更新公式如下&#xff1a; w w − η ⋅ ∇ w w w - \eta \cdot \nabla w ww−η⋅∇w 个人通俗的理解梯度消失就是网络模型在反向求导的时候出…...

    2024/3/20 10:50:27
  3. JRT高效率开发

    得益于前期的基础投入&#xff0c;借助代码生成的加持&#xff0c;本来计划用一周实现质控物维护界面&#xff0c;实际用来四小时左右完成质控物维护主体&#xff0c;效率大大超过预期。 JRT从设计之初就是为了证明Spring打包模式不适合软件服务模式&#xff0c;觉得Spring打包…...

    2024/5/2 10:47:23
  4. 蓝桥杯第十五届抱佛脚(十)贪心算法

    蓝桥杯第十五届抱佛脚&#xff08;十&#xff09;贪心算法 贪心算法基本概念 贪心算法是一种在算法设计中常用的方法&#xff0c;它在每一步选择中都采取在当前状态下最好或最优&#xff08;即最有利&#xff09;的选择&#xff0c;从而希望导致结果是最好或最优的算法。 贪…...

    2024/5/2 2:39:45
  5. 【外汇早评】美通胀数据走低,美元调整

    原标题:【外汇早评】美通胀数据走低,美元调整昨日美国方面公布了新一期的核心PCE物价指数数据,同比增长1.6%,低于前值和预期值的1.7%,距离美联储的通胀目标2%继续走低,通胀压力较低,且此前美国一季度GDP初值中的消费部分下滑明显,因此市场对美联储后续更可能降息的政策…...

    2024/5/1 17:30:59
  6. 【原油贵金属周评】原油多头拥挤,价格调整

    原标题:【原油贵金属周评】原油多头拥挤,价格调整本周国际劳动节,我们喜迎四天假期,但是整个金融市场确实流动性充沛,大事频发,各个商品波动剧烈。美国方面,在本周四凌晨公布5月份的利率决议和新闻发布会,维持联邦基金利率在2.25%-2.50%不变,符合市场预期。同时美联储…...

    2024/5/2 16:16:39
  7. 【外汇周评】靓丽非农不及疲软通胀影响

    原标题:【外汇周评】靓丽非农不及疲软通胀影响在刚结束的周五,美国方面公布了新一期的非农就业数据,大幅好于前值和预期,新增就业重新回到20万以上。具体数据: 美国4月非农就业人口变动 26.3万人,预期 19万人,前值 19.6万人。 美国4月失业率 3.6%,预期 3.8%,前值 3…...

    2024/4/29 2:29:43
  8. 【原油贵金属早评】库存继续增加,油价收跌

    原标题:【原油贵金属早评】库存继续增加,油价收跌周三清晨公布美国当周API原油库存数据,上周原油库存增加281万桶至4.692亿桶,增幅超过预期的74.4万桶。且有消息人士称,沙特阿美据悉将于6月向亚洲炼油厂额外出售更多原油,印度炼油商预计将每日获得至多20万桶的额外原油供…...

    2024/5/2 9:28:15
  9. 【外汇早评】日本央行会议纪要不改日元强势

    原标题:【外汇早评】日本央行会议纪要不改日元强势近两日日元大幅走强与近期市场风险情绪上升,避险资金回流日元有关,也与前一段时间的美日贸易谈判给日本缓冲期,日本方面对汇率问题也避免继续贬值有关。虽然今日早间日本央行公布的利率会议纪要仍然是支持宽松政策,但这符…...

    2024/4/27 17:58:04
  10. 【原油贵金属早评】欧佩克稳定市场,填补伊朗问题的影响

    原标题:【原油贵金属早评】欧佩克稳定市场,填补伊朗问题的影响近日伊朗局势升温,导致市场担忧影响原油供给,油价试图反弹。此时OPEC表态稳定市场。据消息人士透露,沙特6月石油出口料将低于700万桶/日,沙特已经收到石油消费国提出的6月份扩大出口的“适度要求”,沙特将满…...

    2024/4/27 14:22:49
  11. 【外汇早评】美欲与伊朗重谈协议

    原标题:【外汇早评】美欲与伊朗重谈协议美国对伊朗的制裁遭到伊朗的抗议,昨日伊朗方面提出将部分退出伊核协议。而此行为又遭到欧洲方面对伊朗的谴责和警告,伊朗外长昨日回应称,欧洲国家履行它们的义务,伊核协议就能保证存续。据传闻伊朗的导弹已经对准了以色列和美国的航…...

    2024/4/28 1:28:33
  12. 【原油贵金属早评】波动率飙升,市场情绪动荡

    原标题:【原油贵金属早评】波动率飙升,市场情绪动荡因中美贸易谈判不安情绪影响,金融市场各资产品种出现明显的波动。随着美国与中方开启第十一轮谈判之际,美国按照既定计划向中国2000亿商品征收25%的关税,市场情绪有所平复,已经开始接受这一事实。虽然波动率-恐慌指数VI…...

    2024/4/30 9:43:09
  13. 【原油贵金属周评】伊朗局势升温,黄金多头跃跃欲试

    原标题:【原油贵金属周评】伊朗局势升温,黄金多头跃跃欲试美国和伊朗的局势继续升温,市场风险情绪上升,避险黄金有向上突破阻力的迹象。原油方面稍显平稳,近期美国和OPEC加大供给及市场需求回落的影响,伊朗局势并未推升油价走强。近期中美贸易谈判摩擦再度升级,美国对中…...

    2024/4/27 17:59:30
  14. 【原油贵金属早评】市场情绪继续恶化,黄金上破

    原标题:【原油贵金属早评】市场情绪继续恶化,黄金上破周初中国针对于美国加征关税的进行的反制措施引发市场情绪的大幅波动,人民币汇率出现大幅的贬值动能,金融市场受到非常明显的冲击。尤其是波动率起来之后,对于股市的表现尤其不安。隔夜美国股市出现明显的下行走势,这…...

    2024/5/2 15:04:34
  15. 【外汇早评】美伊僵持,风险情绪继续升温

    原标题:【外汇早评】美伊僵持,风险情绪继续升温昨日沙特两艘油轮再次发生爆炸事件,导致波斯湾局势进一步恶化,市场担忧美伊可能会出现摩擦生火,避险品种获得支撑,黄金和日元大幅走强。美指受中美贸易问题影响而在低位震荡。继5月12日,四艘商船在阿联酋领海附近的阿曼湾、…...

    2024/4/28 1:34:08
  16. 【原油贵金属早评】贸易冲突导致需求低迷,油价弱势

    原标题:【原油贵金属早评】贸易冲突导致需求低迷,油价弱势近日虽然伊朗局势升温,中东地区几起油船被袭击事件影响,但油价并未走高,而是出于调整结构中。由于市场预期局势失控的可能性较低,而中美贸易问题导致的全球经济衰退风险更大,需求会持续低迷,因此油价调整压力较…...

    2024/4/26 19:03:37
  17. 氧生福地 玩美北湖(上)——为时光守候两千年

    原标题:氧生福地 玩美北湖(上)——为时光守候两千年一次说走就走的旅行,只有一张高铁票的距离~ 所以,湖南郴州,我来了~ 从广州南站出发,一个半小时就到达郴州西站了。在动车上,同时改票的南风兄和我居然被分到了一个车厢,所以一路非常愉快地聊了过来。 挺好,最起…...

    2024/4/29 20:46:55
  18. 氧生福地 玩美北湖(中)——永春梯田里的美与鲜

    原标题:氧生福地 玩美北湖(中)——永春梯田里的美与鲜一觉醒来,因为大家太爱“美”照,在柳毅山庄去寻找龙女而错过了早餐时间。近十点,向导坏坏还是带着饥肠辘辘的我们去吃郴州最富有盛名的“鱼头粉”。说这是“十二分推荐”,到郴州必吃的美食之一。 哇塞!那个味美香甜…...

    2024/4/30 22:21:04
  19. 氧生福地 玩美北湖(下)——奔跑吧骚年!

    原标题:氧生福地 玩美北湖(下)——奔跑吧骚年!让我们红尘做伴 活得潇潇洒洒 策马奔腾共享人世繁华 对酒当歌唱出心中喜悦 轰轰烈烈把握青春年华 让我们红尘做伴 活得潇潇洒洒 策马奔腾共享人世繁华 对酒当歌唱出心中喜悦 轰轰烈烈把握青春年华 啊……啊……啊 两…...

    2024/5/1 4:32:01
  20. 扒开伪装医用面膜,翻六倍价格宰客,小姐姐注意了!

    原标题:扒开伪装医用面膜,翻六倍价格宰客,小姐姐注意了!扒开伪装医用面膜,翻六倍价格宰客!当行业里的某一品项火爆了,就会有很多商家蹭热度,装逼忽悠,最近火爆朋友圈的医用面膜,被沾上了污点,到底怎么回事呢? “比普通面膜安全、效果好!痘痘、痘印、敏感肌都能用…...

    2024/4/27 23:24:42
  21. 「发现」铁皮石斛仙草之神奇功效用于医用面膜

    原标题:「发现」铁皮石斛仙草之神奇功效用于医用面膜丽彦妆铁皮石斛医用面膜|石斛多糖无菌修护补水贴19大优势: 1、铁皮石斛:自唐宋以来,一直被列为皇室贡品,铁皮石斛生于海拔1600米的悬崖峭壁之上,繁殖力差,产量极低,所以古代仅供皇室、贵族享用 2、铁皮石斛自古民间…...

    2024/4/28 5:48:52
  22. 丽彦妆\医用面膜\冷敷贴轻奢医学护肤引导者

    原标题:丽彦妆\医用面膜\冷敷贴轻奢医学护肤引导者【公司简介】 广州华彬企业隶属香港华彬集团有限公司,专注美业21年,其旗下品牌: 「圣茵美」私密荷尔蒙抗衰,产后修复 「圣仪轩」私密荷尔蒙抗衰,产后修复 「花茵莳」私密荷尔蒙抗衰,产后修复 「丽彦妆」专注医学护…...

    2024/4/30 9:42:22
  23. 广州械字号面膜生产厂家OEM/ODM4项须知!

    原标题:广州械字号面膜生产厂家OEM/ODM4项须知!广州械字号面膜生产厂家OEM/ODM流程及注意事项解读: 械字号医用面膜,其实在我国并没有严格的定义,通常我们说的医美面膜指的应该是一种「医用敷料」,也就是说,医用面膜其实算作「医疗器械」的一种,又称「医用冷敷贴」。 …...

    2024/5/2 9:07:46
  24. 械字号医用眼膜缓解用眼过度到底有无作用?

    原标题:械字号医用眼膜缓解用眼过度到底有无作用?医用眼膜/械字号眼膜/医用冷敷眼贴 凝胶层为亲水高分子材料,含70%以上的水分。体表皮肤温度传导到本产品的凝胶层,热量被凝胶内水分子吸收,通过水分的蒸发带走大量的热量,可迅速地降低体表皮肤局部温度,减轻局部皮肤的灼…...

    2024/4/30 9:42:49
  25. 配置失败还原请勿关闭计算机,电脑开机屏幕上面显示,配置失败还原更改 请勿关闭计算机 开不了机 这个问题怎么办...

    解析如下&#xff1a;1、长按电脑电源键直至关机&#xff0c;然后再按一次电源健重启电脑&#xff0c;按F8健进入安全模式2、安全模式下进入Windows系统桌面后&#xff0c;按住“winR”打开运行窗口&#xff0c;输入“services.msc”打开服务设置3、在服务界面&#xff0c;选中…...

    2022/11/19 21:17:18
  26. 错误使用 reshape要执行 RESHAPE,请勿更改元素数目。

    %读入6幅图像&#xff08;每一幅图像的大小是564*564&#xff09; f1 imread(WashingtonDC_Band1_564.tif); subplot(3,2,1),imshow(f1); f2 imread(WashingtonDC_Band2_564.tif); subplot(3,2,2),imshow(f2); f3 imread(WashingtonDC_Band3_564.tif); subplot(3,2,3),imsho…...

    2022/11/19 21:17:16
  27. 配置 已完成 请勿关闭计算机,win7系统关机提示“配置Windows Update已完成30%请勿关闭计算机...

    win7系统关机提示“配置Windows Update已完成30%请勿关闭计算机”问题的解决方法在win7系统关机时如果有升级系统的或者其他需要会直接进入一个 等待界面&#xff0c;在等待界面中我们需要等待操作结束才能关机&#xff0c;虽然这比较麻烦&#xff0c;但是对系统进行配置和升级…...

    2022/11/19 21:17:15
  28. 台式电脑显示配置100%请勿关闭计算机,“准备配置windows 请勿关闭计算机”的解决方法...

    有不少用户在重装Win7系统或更新系统后会遇到“准备配置windows&#xff0c;请勿关闭计算机”的提示&#xff0c;要过很久才能进入系统&#xff0c;有的用户甚至几个小时也无法进入&#xff0c;下面就教大家这个问题的解决方法。第一种方法&#xff1a;我们首先在左下角的“开始…...

    2022/11/19 21:17:14
  29. win7 正在配置 请勿关闭计算机,怎么办Win7开机显示正在配置Windows Update请勿关机...

    置信有很多用户都跟小编一样遇到过这样的问题&#xff0c;电脑时发现开机屏幕显现“正在配置Windows Update&#xff0c;请勿关机”(如下图所示)&#xff0c;而且还需求等大约5分钟才干进入系统。这是怎样回事呢&#xff1f;一切都是正常操作的&#xff0c;为什么开时机呈现“正…...

    2022/11/19 21:17:13
  30. 准备配置windows 请勿关闭计算机 蓝屏,Win7开机总是出现提示“配置Windows请勿关机”...

    Win7系统开机启动时总是出现“配置Windows请勿关机”的提示&#xff0c;没过几秒后电脑自动重启&#xff0c;每次开机都这样无法进入系统&#xff0c;此时碰到这种现象的用户就可以使用以下5种方法解决问题。方法一&#xff1a;开机按下F8&#xff0c;在出现的Windows高级启动选…...

    2022/11/19 21:17:12
  31. 准备windows请勿关闭计算机要多久,windows10系统提示正在准备windows请勿关闭计算机怎么办...

    有不少windows10系统用户反映说碰到这样一个情况&#xff0c;就是电脑提示正在准备windows请勿关闭计算机&#xff0c;碰到这样的问题该怎么解决呢&#xff0c;现在小编就给大家分享一下windows10系统提示正在准备windows请勿关闭计算机的具体第一种方法&#xff1a;1、2、依次…...

    2022/11/19 21:17:11
  32. 配置 已完成 请勿关闭计算机,win7系统关机提示“配置Windows Update已完成30%请勿关闭计算机”的解决方法...

    今天和大家分享一下win7系统重装了Win7旗舰版系统后&#xff0c;每次关机的时候桌面上都会显示一个“配置Windows Update的界面&#xff0c;提示请勿关闭计算机”&#xff0c;每次停留好几分钟才能正常关机&#xff0c;导致什么情况引起的呢&#xff1f;出现配置Windows Update…...

    2022/11/19 21:17:10
  33. 电脑桌面一直是清理请关闭计算机,windows7一直卡在清理 请勿关闭计算机-win7清理请勿关机,win7配置更新35%不动...

    只能是等着&#xff0c;别无他法。说是卡着如果你看硬盘灯应该在读写。如果从 Win 10 无法正常回滚&#xff0c;只能是考虑备份数据后重装系统了。解决来方案一&#xff1a;管理员运行cmd&#xff1a;net stop WuAuServcd %windir%ren SoftwareDistribution SDoldnet start WuA…...

    2022/11/19 21:17:09
  34. 计算机配置更新不起,电脑提示“配置Windows Update请勿关闭计算机”怎么办?

    原标题&#xff1a;电脑提示“配置Windows Update请勿关闭计算机”怎么办&#xff1f;win7系统中在开机与关闭的时候总是显示“配置windows update请勿关闭计算机”相信有不少朋友都曾遇到过一次两次还能忍但经常遇到就叫人感到心烦了遇到这种问题怎么办呢&#xff1f;一般的方…...

    2022/11/19 21:17:08
  35. 计算机正在配置无法关机,关机提示 windows7 正在配置windows 请勿关闭计算机 ,然后等了一晚上也没有关掉。现在电脑无法正常关机...

    关机提示 windows7 正在配置windows 请勿关闭计算机 &#xff0c;然后等了一晚上也没有关掉。现在电脑无法正常关机以下文字资料是由(历史新知网www.lishixinzhi.com)小编为大家搜集整理后发布的内容&#xff0c;让我们赶快一起来看一下吧&#xff01;关机提示 windows7 正在配…...

    2022/11/19 21:17:05
  36. 钉钉提示请勿通过开发者调试模式_钉钉请勿通过开发者调试模式是真的吗好不好用...

    钉钉请勿通过开发者调试模式是真的吗好不好用 更新时间:2020-04-20 22:24:19 浏览次数:729次 区域: 南阳 > 卧龙 列举网提醒您:为保障您的权益,请不要提前支付任何费用! 虚拟位置外设器!!轨迹模拟&虚拟位置外设神器 专业用于:钉钉,外勤365,红圈通,企业微信和…...

    2022/11/19 21:17:05
  37. 配置失败还原请勿关闭计算机怎么办,win7系统出现“配置windows update失败 还原更改 请勿关闭计算机”,长时间没反应,无法进入系统的解决方案...

    前几天班里有位学生电脑(windows 7系统)出问题了&#xff0c;具体表现是开机时一直停留在“配置windows update失败 还原更改 请勿关闭计算机”这个界面&#xff0c;长时间没反应&#xff0c;无法进入系统。这个问题原来帮其他同学也解决过&#xff0c;网上搜了不少资料&#x…...

    2022/11/19 21:17:04
  38. 一个电脑无法关闭计算机你应该怎么办,电脑显示“清理请勿关闭计算机”怎么办?...

    本文为你提供了3个有效解决电脑显示“清理请勿关闭计算机”问题的方法&#xff0c;并在最后教给你1种保护系统安全的好方法&#xff0c;一起来看看&#xff01;电脑出现“清理请勿关闭计算机”在Windows 7(SP1)和Windows Server 2008 R2 SP1中&#xff0c;添加了1个新功能在“磁…...

    2022/11/19 21:17:03
  39. 请勿关闭计算机还原更改要多久,电脑显示:配置windows更新失败,正在还原更改,请勿关闭计算机怎么办...

    许多用户在长期不使用电脑的时候&#xff0c;开启电脑发现电脑显示&#xff1a;配置windows更新失败&#xff0c;正在还原更改&#xff0c;请勿关闭计算机。。.这要怎么办呢&#xff1f;下面小编就带着大家一起看看吧&#xff01;如果能够正常进入系统&#xff0c;建议您暂时移…...

    2022/11/19 21:17:02
  40. 还原更改请勿关闭计算机 要多久,配置windows update失败 还原更改 请勿关闭计算机,电脑开机后一直显示以...

    配置windows update失败 还原更改 请勿关闭计算机&#xff0c;电脑开机后一直显示以以下文字资料是由(历史新知网www.lishixinzhi.com)小编为大家搜集整理后发布的内容&#xff0c;让我们赶快一起来看一下吧&#xff01;配置windows update失败 还原更改 请勿关闭计算机&#x…...

    2022/11/19 21:17:01
  41. 电脑配置中请勿关闭计算机怎么办,准备配置windows请勿关闭计算机一直显示怎么办【图解】...

    不知道大家有没有遇到过这样的一个问题&#xff0c;就是我们的win7系统在关机的时候&#xff0c;总是喜欢显示“准备配置windows&#xff0c;请勿关机”这样的一个页面&#xff0c;没有什么大碍&#xff0c;但是如果一直等着的话就要两个小时甚至更久都关不了机&#xff0c;非常…...

    2022/11/19 21:17:00
  42. 正在准备配置请勿关闭计算机,正在准备配置windows请勿关闭计算机时间长了解决教程...

    当电脑出现正在准备配置windows请勿关闭计算机时&#xff0c;一般是您正对windows进行升级&#xff0c;但是这个要是长时间没有反应&#xff0c;我们不能再傻等下去了。可能是电脑出了别的问题了&#xff0c;来看看教程的说法。正在准备配置windows请勿关闭计算机时间长了方法一…...

    2022/11/19 21:16:59
  43. 配置失败还原请勿关闭计算机,配置Windows Update失败,还原更改请勿关闭计算机...

    我们使用电脑的过程中有时会遇到这种情况&#xff0c;当我们打开电脑之后&#xff0c;发现一直停留在一个界面&#xff1a;“配置Windows Update失败&#xff0c;还原更改请勿关闭计算机”&#xff0c;等了许久还是无法进入系统。如果我们遇到此类问题应该如何解决呢&#xff0…...

    2022/11/19 21:16:58
  44. 如何在iPhone上关闭“请勿打扰”

    Apple’s “Do Not Disturb While Driving” is a potentially lifesaving iPhone feature, but it doesn’t always turn on automatically at the appropriate time. For example, you might be a passenger in a moving car, but your iPhone may think you’re the one dri…...

    2022/11/19 21:16:57