Ë
    z¤Ig)†  ã                  ó’  — d dl mZ d dlZd dlZd dlZd dlZd dlZd dlZd dl	m
Z d dlZd dlmZmZmZmZ d dlmZ d dlmZmZ ddlmZ ddlmZ dd	lmZmZ  ej<                  d
ej>                  ¬«        ej@                  e!«      Z" G d„ d«      Z# G d„ de#«      Z$ G d„ de#«      Z% G d„ de#«      Z& G d„ de#«      Z'd„ Z( G d„ d«      Z)d/d„Z* G d„ d«      Z+ G d„ d«      Z,d„ Z-d„ Z.e!d k(  rÚ e.«       Z/e/j`                  re"jc                  ejd                  «       e/jf                  Z4e/jj                  Z6ee/jn                     Z7ejp                  js                  e6«      r!e"ju                  d!e6› d"«        e;d!e6› d"«      ‚e/jx                  r'e/jz                  d#k(  re"j}                  d$«       d%e/_<         ej~                  e4«      Z@e/jz                  d#k(  r e&e/j‚                  e/j„                  ¬&«      ZCn‰e/jz                  d'k(  r+ e'e/j‚                  e/jx                  e/jˆ                  e7¬(«      ZCnOe/jz                  d)k(  r e$«       ZCn8e/jz                  d*k(  r e%e/j‚                  ¬+«      ZCn eEd,e/jz                  › «      ‚ e,e@e/jˆ                  e/jŒ                  eC¬-«      ZGeGj‘                  «        eGj€                  j“                  e6d.«       yy)0é    )ÚannotationsN)Ú
GraphProtoÚ
ModelProtoÚ	NodeProtoÚTensorProto)Úversion)Úquantize_matmul_4bitsÚquantize_qdq_matmul_4bitsé   )ÚCalibrationDataReader)Ú	ONNXModel)ÚQuantFormatÚattribute_to_kwargz2%(asctime)s %(name)s [%(levelname)s] - %(message)s)ÚformatÚlevelc                  ó   — e Zd Zd„ Zy)ÚWeightOnlyQuantConfigc                ó    — || _         || _        y)a˜  This is the Base class for Weight Only Quant Configuration.

        Args:
            algorithm:
                weight only quantize algorithm name.
            quant_format: QuantFormat{QOperator, QDQ}.
                QOperator format quantizes the model with quantized operators directly.
                QDQ format quantize the model by inserting QuantizeLinear/DeQuantizeLinear on the tensor.
        N©Ú	algorithmÚquant_format)Úselfr   r   s      úl/var/www/html/answerous/venv/lib/python3.12/site-packages/onnxruntime/quantization/matmul_4bits_quantizer.pyÚ__init__zWeightOnlyQuantConfig.__init__    s   € ð #ˆŒØ(ˆÕó    N)Ú__name__Ú
__module__Ú__qualname__r   © r   r   r   r      s   „ ó)r   r   c                  ó8   ‡ — e Zd Zdej                  fˆ fd„	Zˆ xZS )ÚRTNWeightOnlyQuantConfigNc                ór   •— |t         j                  k(  sJ d«       ‚|€i }t        ‰|   d|¬«       || _        y)aF  
        This is a class for round-to-nearest (RTN) algorithm Weight Only Quant Configuration.
        RTN is the most straightforward way to quantize weight using scale maps.

        Args:
            ratios:
                percentile of clip. Defaults to {}.
            quant_format (QuantFormat{QOperator, QDQ}, optional):
                QOperator format quantizes the model with quantized operators directly.
                QDQ format quantize the model by inserting QuantizeLinear/DeQuantizeLinear on the tensor.
                Defaults to QuantFormat.QOperator.
        z"RTN only supports QOperator formatNÚRTNr   )r   Ú	QOperatorÚsuperr   Úratios)r   r&   r   Ú	__class__s      €r   r   z!RTNWeightOnlyQuantConfig.__init__/   sJ   ø€ ð" œ{×4Ñ4Ò4ÐZÐ6ZÓZÐ4àˆ>ØˆFÜ‰ÑØØ%ð 	ô 	
ð ˆr   ©r   r   r   r   r$   r   Ú__classcell__©r'   s   @r   r!   r!   .   s   ø„ ð Ø ×*Ñ*÷ñ r   r!   c                  óD   ‡ — e Zd Zdddddej                  f	 dˆ fd„Zˆ xZS )ÚGPTQWeightOnlyQuantConfigg{®Gáz„?é€   FTc                ó°   •— |t         j                  k(  sJ d«       ‚t        ‰|   d|¬«       || _        || _        || _        || _        || _        || _	        y)a¶  
        This is a class for GPTQ algorithm Weight Only Quant Configuration.
        GPTQ algorithm provides more accurate quantization but requires more computational resources.

        Args:
            calibration_data_reader:
                a calibration data reader. It enumerates calibration data and generates inputs for the original model.
            percdamp:
                percent of the average Hessian diagonal to use for dampening.
            block_size (int, optional):
                channel number in one block to execute a GPTQ quantization iteration.
            actorder (bool, optional):
                whether rearrange Hessian matrix considering the diag's value.
            mse (bool, optional):
                whether get scale and zero point with mse error.
            perchannel (bool, optional):
                whether quantize weight per-channel.
            quant_format (QuantFormat{QOperator, QDQ}, optional):
                QOperator format quantizes the model with quantized operators directly.
                QDQ format quantize the model by inserting QuantizeLinear/DeQuantizeLinear on the tensor.
                Defaults to QuantFormat.QOperator.
        z#GPTQ only supports QOperator formatÚGPTQr   N)
r   r$   r%   r   Úcalibration_data_readerÚpercdampÚ
block_sizeÚactorderÚmseÚ
perchannel)	r   r0   r1   r2   r3   r4   r5   r   r'   s	           €r   r   z"GPTQWeightOnlyQuantConfig.__init__L   se   ø€ ð@ œ{×4Ñ4Ò4Ð[Ð6[Ó[Ð4ä‰ÑØØ%ð 	ô 	
ð (?ˆÔ$Ø ˆŒØ$ˆŒØ ˆŒØˆŒØ$ˆr   )r0   r   r(   r*   s   @r   r,   r,   K   s/   ø„ ð ØØØØØ ×*Ñ*ð+%à!6÷+%ñ +%r   r,   c                  ó<   ‡ — e Zd Zdddej                  fˆ fd„	Zˆ xZS )ÚHQQWeightOnlyQuantConfigr-   é   r   c                ó†   •— |t         j                  k(  sJ d«       ‚t        ‰|   d|¬«       || _        || _        || _        y)a&  
        This is a class for HQQ algorithm Weight Only Quant Configuration.
        HQQ algorithm quant weight without needing calibrate data.

        Args:
            block_size (int, optional):
                channel number in one block to execute a HQQ quantization iteration.
            bits (int, optional):
                how many bits to represent weight.
            axis (int, optional):
                0 or 1. which axis to quantize. https://arxiv.org/pdf/2309.15531.pdf
            quant_format (QuantFormat{QOperator, QDQ}, optional):
                QOperator format quantizes the model with quantized operators directly.
                QDQ format quantize the model by inserting QuantizeLinear/DeQuantizeLinear on the tensor.
                Defaults to QuantFormat.QOperator.
        z"HQQ only supports QOperator formatÚHQQr   N)r   r$   r%   r   r2   ÚbitsÚaxis)r   r2   r;   r<   r   r'   s        €r   r   z!HQQWeightOnlyQuantConfig.__init__{   sN   ø€ ð. œ{×4Ñ4Ò4ÐZÐ6ZÓZÐ4ä‰ÑØØ%ð 	ô 	
ð %ˆŒØˆŒ	Øˆ	r   r(   r*   s   @r   r7   r7   z   s!   ø„ ð ØØØ ×*Ñ*÷ñ r   r7   c                  óH   ‡ — e Zd Zdddej                  f	 	 	 	 	 dˆ fd„Zˆ xZS )ÚDefaultWeightOnlyQuantConfigr-   FNc                ó`   •— t         ‰|   d|¬«       || _        || _        d| _        || _        y)aÇ  
        This is a class for weight only affine quantization configuration.

        Args:
            block_size (int, optional):
                channel number in one block to execute an affine quantization iteration.
            is_symmetric (bool, optional):
                whether quantize weight symmetrically.
            accuracy_level (int, optional):
                Accuracy level of the 4-bit quantized MatMul computation.
                Refer to the MatMulNBits contrib op's 'accuracy_level' attribute for details.
                (https://github.com/microsoft/onnxruntime/blob/main/docs/ContribOperators.md#commicrosoftmatmulnbits)
            quant_format (QuantFormat{QOperator, QDQ}, optional):
                QOperator format quantizes the model with quantized operators directly.
                QDQ format quantize the model by inserting QuantizeLinear/DeQuantizeLinear on the tensor.
                Defaults to QuantFormat.QOperator.
        ÚDEFAULTr   r8   N)r%   r   r2   Úis_symmetricr;   Úaccuracy_level)r   r2   rA   rB   r   r'   s        €r   r   z%DefaultWeightOnlyQuantConfig.__init__ž   s5   ø€ ô0 	‰Ñ 9¸<ÐÔHØ$ˆŒØ(ˆÔØˆŒ	Ø,ˆÕr   )r2   ÚintrA   ÚboolrB   ú
int | Noner(   r*   s   @r   r>   r>      s=   ø„ ð Ø"Ø%)Ø ×*Ñ*ð-àð-ð ð-ð #÷	-ñ -r   r>   c                óP   — t        |t        j                  | |z  «      z  «      | k(  S ©N)rC   ÚnpÚceil)Úval1Úval2s     r   Úis_divisiblerL   ½   s$   € Üˆt”b—g‘g˜d T™kÓ*Ñ*Ó+¨tÑ3Ð3r   c                  ó^   — e Zd Z	 	 dd„Ze	 	 	 d	 	 	 	 	 d	d„«       Zed„ «       Z	 d
d„Zdd„Zy)ÚHQQWeightOnlyQuantizerc                ó   — || _         y rG   ©Úconfig©r   rQ   s     r   r   zHQQWeightOnlyQuantizer.__init__Â   s   € ð ˆr   Nc                óÈ  ‡— dd l Š|€dddddœn|}|d   |d   |d	   |d
   f\  }}}	}
| j                  r‰j                  n‰j                  }| j	                  |«      }|j	                  |«      }|j	                  |«      }|dk(  rˆfd„}n|fˆfd„	}d}t        |
«      D ]»  }‰j                  ||z  |z   «      j                  |d   |d   «      }||z
  |z  } |||z
  |«      }‰j                  |||z
  |z  z
  |d¬«      }||	z  }t        ‰j                  ||z
  «      j                  «       «      }|r t        |t        j                  |d«      «       ||k  r|}Œ» n ~~~~||fS )Nr   gffffffæ?g      $@g)\Âõ(ð?é   )Úlp_normÚbetaÚkappaÚitersrU   rV   rW   rX   r   c                óœ   •— ‰j                  | «      ‰j                  j                  j                  ‰j	                  | «      d|z  z
  «      z  S )Nç      ð?)ÚsignÚnnÚ
functionalÚreluÚabs)ÚxrV   Útorchs     €r   Ú	shrink_opz:HQQWeightOnlyQuantizer.optimize_weights.<locals>.shrink_opä   s=   ø€ Ø—z‘z !“} u§x¡x×':Ñ':×'?Ñ'?ÀÇ	Á	È!ÃÈsÐUYÉzÑ@YÓ'ZÑZÐZr   c           
     óì   •— ‰j                  | «      ‰j                  j                  j                  ‰j	                  | «      d|z  ‰j                  ‰j	                  | «      dz   |dz
  «      z  z
  «      z  S )NrZ   g:Œ0âŽyE>r   )r[   r\   r]   r^   r_   Úpow)r`   rV   Úpra   s      €r   rb   z:HQQWeightOnlyQuantizer.optimize_weights.<locals>.shrink_opé   sg   ø€ Ø—z‘z !“} u§x¡x×':Ñ':×'?Ñ'?Ø—I‘I˜a“L C¨$¡J°%·)±)¸E¿I¹IÀa»LÈ4Ñ<OÐQRÐUVÑQVÓ2WÑ#WÑWó(ñ ð r   g     ˆÃ@T©r<   Úkeepdimé   )ra   Úis_cudaÚfloat16Úfloat32ÚtoÚrangeÚroundÚclampÚmeanÚfloatr_   ÚprintrH   )ÚtensorÚscaleÚzeroÚmin_maxr<   Ú
opt_paramsÚverboserU   rV   rW   rX   ÚdtypeÚw_frb   Ú
best_errorÚiÚw_qÚw_rÚw_eÚcurrent_errorra   s                       @r   Úoptimize_weightsz'HQQWeightOnlyQuantizer.optimize_weightsÉ   s  ø€ ó 	àR\ÐRd ¨c¸DÈ2ÒNÐjtˆ
àyÑ!ØvÑØwÑØwÑð	'
Ñ#ˆu˜eð "(§¢—’°U·]±]ˆØi‰i˜ÓˆØ—‘˜“ˆØw‰wu‹~ˆàaŠ<õ[ð
 &-õ ð
 ˆ
Üu“ò 	ˆAØ—+‘+˜c E™k¨DÑ0Ó1×7Ñ7¸À¹
ÀGÈAÁJÓOˆCØ˜‘: Ñ&ˆCÙ˜C #™I tÓ,ˆCØ—:‘:˜c S¨3¡Y°%Ñ$7Ñ7¸dÈD:ÓQˆDØE‰MˆDä! %§)¡)¨C°#©IÓ"6×";Ñ";Ó"=Ó>ˆMÙÜaœŸ™ -°Ó3Ô4Ø˜zÒ)Ø*‘
áð	ð c˜3àdˆ{Ðr   c           	     ó  — | j                   d   |j                   d   k(  r|j                  }| j                  } |dv rA| j                  «       dz  |z  }t        |«      D ]  }| dd xxx ||d |…   ||z  z  z  ccc Œ y t	        d«      ‚)Nr   )é   r8   é   r„   zOnly 2,4,8 bits are supported.)ÚshapeÚTÚelement_sizerm   ÚNotImplementedError)Úpack_tensorÚori_int_tensorr;   Úcompress_ratioÚjs        r   Úpack_on_row_fast_248bitz.HQQWeightOnlyQuantizer.pack_on_row_fast_248bit  sŸ   € à×Ñ˜QÑ >×#7Ñ#7¸Ñ#:Ò:Ø+×-Ñ-ˆNØ%Ÿ-™-ˆKØ9ÑØ(×5Ñ5Ó7¸!Ñ;¸tÑCˆNÜ˜>Ó*ò UØ˜A˜B“ >°!Ð2C°^Ð2CÑ#DÈÐQRÉÑ#TÑT”ñUô &Ð&FÓGÐGr   c                ó<  — dd l }|j                  «       }	|	j                  }
||
|   |z  z
  |z  }|dk(  r+|j                  j                  j                  |	d|fdd«      }	n,|j                  j                  j                  |	ddd|fdd«      }	|	j                  }|-|r+|dk(  r|	j                  d|g«      n|	j                  |dg«      }	|du r#|	j                  «       |	j                  «       }}d}n,|	j                  |d¬«      d   }|	j                  |d¬«      d   }d|z  dz
  }d}||g}|||z
  z  j                  d	¬
«      }||z
  }|dk(  j                  «       j                  «       dkD  r|||dk(  <   ||z  j                  d	¬
«      }| |z  }|r|j                  |«      }|r| j                  |	||||¬«      \  }}|j                  |	|z  |z   «      j                  |d   |d   «      }|j                  |«      j                  «       }d|z  }|dk(  r+|j                  |d   d«      }|j                  |d   d«      }n*|j                  d|d   «      }|j                  d|d   «      }~	~~||j                  |j                   «      |j                  |j                   «      fS )Nr   r   ÚconstantéÿÿÿÿFTrf   rƒ   g     ˆÓ@)Úmax)rs   rt   ru   rv   r<   rZ   )ra   rq   r…   r\   r]   ÚpadÚreshapeÚminr‘   ro   ÚsumÚitemrn   r   rC   rl   ry   )r   rs   r;   Úchannel_wiseÚ
group_sizeÚoptimizeÚ
round_zeror<   ra   ÚweightÚ	ori_shapeÚpad_lenr…   Ú_minÚ_maxÚmax_vÚmin_vrv   rt   Úmin_max_axisru   r}   s                         r   Úquantize_internalz(HQQWeightOnlyQuantizer.quantize_internal  s¶  € ó 	à—‘“ˆØ—L‘Lˆ	à 	¨$¡°*Ñ <Ñ<À
ÑJˆØ1Š9Ø—X‘X×(Ñ(×,Ñ,¨V°a¸°\À:ÈqÓQ‰Fà—X‘X×(Ñ(×,Ñ,¨V°a¸¸A¸wÐ5GÈÐUVÓWˆFØ—‘ˆð Ð"©Ø:>À!º)V—^‘^ R¨Ð$4Ô5È&Ï.É.ÐZdÐfhÐYiÓJjˆFð ˜5Ñ ØŸ™› v§z¡z£|$ˆDØ‰Hà—:‘: 4°:Ó6°qÑ9ˆDØ—:‘: 4°:Ó6°qÑ9ˆDà4‘˜!‘ˆØˆØ˜%.ˆð ˜$ ™+Ñ&×-Ñ-°#Ð-Ó6ˆà˜d‘{ˆØ˜AÑ×"Ñ"Ó$×)Ñ)Ó+¨aÒ/Ø.3ˆL˜¨Ñ*Ñ+Ø˜\Ñ)×0Ñ0°SÐ0Ó9ˆEØˆuu‰}ˆáØ—;‘;˜tÓ$ˆDñ Ø×/Ñ/°vÀUÐQUÐ_fÐmqÐ/Ór‰KˆE4ð k‰k˜& 5™.¨4Ñ/Ó0×6Ñ6°w¸q±zÀ7È1Á:ÓNˆØk‰k˜%Ó ×$Ñ$Ó&ˆàe‘ˆØ1Š9Ø—M‘M %¨¡(¨BÓ/ˆEØ—<‘<  a¡¨"Ó-‰Dà—M‘M " e¨B¡iÓ0ˆEØ—<‘<  E¨"¡IÓ.ˆDàD˜$àE—H‘H˜VŸ\™\Ó*¨D¯G©G°F·L±LÓ,AÐAÐAr   c                ón	  — |j                   dk7  r|gS ddl}t        j                  d|j                  › d«       |j
                  d   }t        ||«      \  }}|€t        j                  d«       |gS t        j                  j                  |«      }t        |j                  «      dk7  rt        j                  d	«       |gS |j                  |«      }|j                  j                  «       r|j                  «       }| j                  |j                   | j"                  j$                  | j"                  j&                  ¬
«      \  }	}
}|	j)                  «       }	|
j)                  «       }
|j)                  «       }|j+                  |	j                  d   |	j                  d   dz  f|j,                  |	j.                  ¬«      }| j1                  ||	| j"                  j$                  «       |
j3                  «       j5                  «       }|j3                  «       j5                  «       }|j7                  d«      }|j7                  d«      }|j                  \  }}| j"                  j&                  }|dz  }||z   dz
  |z  }|j7                  |||«      }t        j                  j9                  |j3                  «       j5                  «       «      }|j                  dz   |_        |j
                  D ].  }|j                  |k(  sŒ|j
                  j;                  |«        n t        j                  j9                  |«      }|j                  dz   |_        |j<                  j?                  ||g«       |j
                  d   |j                  |j                  g}t        j                  j9                  |«      }|j                  dz   |_        |j<                  j?                  |g«       |jA                  |j                  «       i }|j                  \  }}||d<   ||d<   | j"                  j$                  |d<   | j"                  j&                  |d<   t        jB                  jD                  	 d||jF                  d   g|j                  r|j                  dz   ndddœ|¤Ž}t        j                  d|j                  › d«       |gS )úÙ
        If the node is MatMul with fp32 const weight, quantize the weight with int4, and return the new node.
        If QOperator format, return MatMulNbits. If QDQ format, return DeQuantizeLinear + MatMul.
        ÚMatMulr   Nústart to quantize ú ...r   ú2MatMul doesn't have const weight. Skip to quantizerƒ   ú)MatMul weight is not 2D. Skip to quantize)r;   r˜   )ry   Údevicer   Ú_Q4Ú_scalesÚ_zero_pointsÚKÚNr;   r2   Ú úcom.microsoft©ÚinputsÚoutputsÚnameÚdomainúcomplete quantization of ©ÚMatMulNBits)$Úop_typera   ÚloggerÚinfor¶   ÚinputÚget_initializerÚonnxÚnumpy_helperÚto_arrayÚlenr…   Ú
from_numpyÚcudaÚis_availabler£   r†   rQ   r;   r2   Ú
contiguousÚzerosÚuint8r«   r   ÚcpuÚnumpyr“   Ú
from_arrayÚremoveÚinitializerÚextendÚappendÚhelperÚ	make_nodeÚoutput)r   ÚnodeÚgraph_stackra   Úinput_bÚb_pbÚbs_graphÚb_arrayÚb_array_torchÚquant_weight_torchÚscales_torchÚzero_points_torchÚpacked_torchÚscalesÚzero_pointsÚrowsÚcolsr2   Ú	blob_sizeÚk_blocksÚb_quantr¾   Úscales_tensorÚinput_namesÚ	zp_tensorÚkwargsÚmatmul_q4_nodes                              r   ÚquantizezHQQWeightOnlyQuantizer.quantizeP  s  € ð
 <‰<˜8Ò#Ø6ˆMÛä‰Ð(¨¯©¨°4Ð8Ô9Ø—*‘*˜Q‘-ˆÜ(¨°+Ó>‰ˆˆhØˆ<ÜK‰KÐLÔMØ6ˆMä×#Ñ#×,Ñ,¨TÓ2ˆÜˆw}‰}Ó Ò"ÜK‰KÐCÔDØ6ˆMØ×(Ñ(¨Ó1ˆØ:‰:×"Ñ"Ô$Ø)×.Ñ.Ó0ˆMØ>B×>TÑ>TØO‰O $§+¡+×"2Ñ"2¸t¿{¹{×?UÑ?Uð ?Uó ?
Ñ;Ð˜LÐ*;ð 0×:Ñ:Ó<ÐØ#×.Ñ.Ó0ˆØ-×8Ñ8Ó:Ðà—{‘{Ø×%Ñ% aÑ(Ð*<×*BÑ*BÀ1Ñ*EÈÑ*JÐKØ—+‘+Ø%×,Ñ,ð #ó 
ˆð
 	×$Ñ$ \Ð3EÀtÇ{Á{×GWÑGWÔXØ×!Ñ!Ó#×)Ñ)Ó+ˆØ'×+Ñ+Ó-×3Ñ3Ó5ˆà—‘ Ó#ˆØ!×)Ñ)¨"Ó-ˆØ"×(Ñ(‰
ˆˆdØ—[‘[×+Ñ+ˆ
Ø !‘Oˆ	Ø˜:Ñ%¨Ñ)¨jÑ8ˆØ#×+Ñ+¨D°(¸IÓFˆä×#Ñ#×.Ñ.¨|×/?Ñ/?Ó/A×/GÑ/GÓ/IÓJˆØ—y‘y 5Ñ(ˆŒØ—^‘^ò 	ˆEØz‰z˜WÓ$Ø—‘×%Ñ% eÔ,Ùð	ô
 ×)Ñ)×4Ñ4°VÓ<ˆØ!ŸY™Y¨Ñ2ˆÔØ×Ñ×#Ñ# W¨mÐ$<Ô=à—z‘z !‘} g§l¡l°M×4FÑ4FÐGˆÜ×%Ñ%×0Ñ0°Ó=ˆ	ØŸ™ ^Ñ3ˆ	ŒØ×Ñ×#Ñ# Y KÔ0Ø×Ñ˜9Ÿ>™>Ô*àˆØ—]‘]‰
ˆˆdØˆˆs‰Øˆˆs‰ØŸ™×)Ñ)ˆˆv‰Ø#Ÿ{™{×5Ñ5ˆˆ|ÑäŸ™×.Ñ.Øð
àØ—[‘[ ‘^Ð$Ø&*§i¢i—‘˜UÒ"°RØ"ñ
ð ñ
ˆô 	‰Ð/°·	±	¨{¸$Ð?Ô@àÐÐr   )rQ   r7   )r   NF)rv   z	list[int]r<   rC   rw   Údict)r8   Té@   TTr   ©rÔ   r   rÕ   úlist[GraphProto]Úreturnzlist[NodeProto])	r   r   r   r   Ústaticmethodr   r   r£   rë   r   r   r   rN   rN   Á   sw   „ ðà(óð ð ØØð6ð ð	6ð
 ð6ð ò6ó ð6ðp ñ	Hó ð	Hð fgó?BôBR r   rN   c                óš   — t        t        |«      dz
  dd«      D ]/  }||   }|j                  D ]  }|j                  | k(  sŒ||fc c S  Œ1 y)Nr   r   )NN)rm   rÃ   rÎ   r¶   )r¶   Ú
graph_pathÚgidÚgraphrs   s        r   r¿   r¿   ¥  s\   € Ü”S˜“_ qÑ(¨"¨bÓ1ò %ˆØ˜3‘ˆØ×'Ñ'ò 	%ˆFØ{‰{˜dÓ"Ø˜u}Ô$ñ	%ð%ð
 r   c                  ó$   — e Zd Zdd„Zdd„Zdd„Zy)ÚDefaultWeightOnlyQuantizerc                ó   — || _         y rG   rP   rR   s     r   r   z#DefaultWeightOnlyQuantizer.__init__¯  s	   € Øˆr   c           
     óz  — t        |j                  «      dk7  rt        d«      ‚|j                  \  }}| j                  j                  }||z   dz
  |z  }| j                  j
                  t        j                  k(  r´|dz  }||z  }||z
  }|dkD  rt        j                  |d|fdfd«      }t        j                  |||fd¬«      }	t        j                  ||dz   dz  z  d¬«      }
t        j                  ||z  |j                  ¬«      }t        |	|||
|||| j                  j                  «       n‰t        j                  ||z  dz   dz  d¬«      }	t        j                  ||z  dz   dz  d¬«      }
t        j                  ||f|j                  ¬«      }t        |	|||
|||| j                  j                  «       |	||
fS )	z!4b quantize fp32 weight to a blobrƒ   z9Current int4 block quantization only supports 2D tensors!r   r   )r   r   r   rÉ   )ry   )rÃ   r…   Ú
ValueErrorrQ   r2   r   r   r$   rH   r’   rÈ   ry   r	   rA   r
   )r   Ú
fp32weightrá   râ   r2   rä   rã   Úpadded_rowsr   ÚpackedÚ
zero_pointrß   s               r   Úint4_block_quantz+DefaultWeightOnlyQuantizer.int4_block_quant²  s°  € ô ˆz×ÑÓ  AÒ%ÜÐXÓYÐYØ×%Ñ%‰
ˆˆdà—[‘[×+Ñ+ˆ
Ø˜:Ñ%¨Ñ)¨jÑ8ˆà;‰;×#Ñ#¤{×'<Ñ'<Ò<Ø" a™ˆIØ" ZÑ/ˆKØ! DÑ(ˆGØ˜Š{ÜŸV™V J°!°W°¸vÐ0FÈ
ÓS
ô —X‘X˜t X¨yÐ9ÀÔIˆFÜŸ™ $¨8°a©<¸AÑ*=Ñ">ÀgÔNˆJÜ—X‘X˜t h™°z×7GÑ7GÔHˆFÜ!Ø˜
 F¨J¸
ÀDÈ$ÐPT×P[ÑP[×PhÑPhõô —X‘X˜t d™{¨Q™°1Ñ4¸GÔDˆFÜŸ™ 4¨(¡?°QÑ#6¸1Ñ"<ÀGÔLˆJÜ—X‘X˜x¨Ð.°j×6FÑ6FÔGˆFÜ%Ø˜
 F¨J¸
ÀDÈ$ÐPT×P[ÑP[×PhÑPhôð ˜ 
Ð+Ð+r   c                ó6  — |j                   dk7  r|gS t        j                  d|j                  › d«       | j                  j
                  rt        j                  nt        j                  }|j                  d   }t        ||«      \  }}|€t        j                  d«       |gS t        j                  j                  |«      }t        |j                  «      dk7  rt        j                  d«       |gS | j!                  |«      \  }}	}
| j                  j"                  t$        j&                  k(  r[t        j                  j)                  ||j                  dz   «      }t        j                  j)                  |	|j                  d	z   «      }nut        j*                  j-                  |j                  d
z   ||j                  |j/                  «       d«      }t        j                  j)                  |	|j                  dz   «      }|j                  D ].  }|j                  |k(  sŒ|j                  j1                  |«        n |j2                  j5                  ||g«       g }| j                  j"                  t$        j&                  k(  ri|j                  d   |j                  |j                  g}| j                  j
                  sdt        j                  j)                  |
|j                  dz   «      }|j7                  |j                  «       |j2                  j5                  |g«       i }|j                  \  }}||d<   ||d<   d|d<   | j                  j8                  |d<   | j                  j:                  | j                  j:                  |d<   t        j*                  j<                  	 d||j>                  d   g|j                  r|j                  dz   ndddœ|¤Ž}|j7                  |«       nŠ|j                  |j                  g}|j                  dz   g}|j                  d   |d   g}|j>                  d   g}| j                  j
                  st        j*                  j-                  |j                  dz   ||	j                  |
j/                  «       d«      }|j7                  |j                  «       |j2                  j5                  |g«       d| j                  j8                  dœ}t        j*                  j<                  	 d|||j                  r|j                  d
z   nddœ|¤Ž}t        j*                  j=                  d|||j                  r|j                  dz   nd¬«      }|j5                  ||g«       t        j                  d|j                  › d«       |S ) r¥   r¦   r§   r¨   r   r©   rƒ   rª   r¬   r­   Ú_DQ_Q4TÚ
_DQ_scalesr   r®   r¯   r°   r8   r;   r2   rB   r±   r²   r³   Ú_outputÚ_DQ_zero_points)r<   r2   )r´   rµ   r¶   Ú
_matmul_Q4r¸   r¹   )ÚDequantizeLinear) r»   r¼   r½   r¶   rQ   rA   r   ÚINT4ÚUINT4r¾   r¿   rÀ   rÁ   rÂ   rÃ   r…   rÿ   r   r   r$   rÌ   rÑ   Úmake_tensorÚtobytesrÍ   rÎ   rÏ   rÐ   r2   rB   rÒ   rÓ   )r   rÔ   rÕ   ÚqtyperÖ   Úb_tensorÚb_graphÚ	b_ndarrayrý   rß   rà   rå   ræ   r¾   Úoutput_nodesrç   rè   ré   rá   râ   rê   Údq_input_namesÚdq_output_namesÚmatmul_input_namesÚmatmul_output_namesÚ	dq_kwargsÚdq_nodeÚmatmul_nodes                               r   rë   z#DefaultWeightOnlyQuantizer.quantizeÔ  s­  € ð <‰<˜8Ò#Ø6ˆMä‰Ð(¨¯©¨°4Ð8Ô9Ø$(§K¡K×$<Ò$<”× Ò Ä+×BSÑBSˆØ—*‘*˜Q‘-ˆÜ+¨G°[ÓAÑˆ'ØÐÜK‰KÐLÔMØ6ˆMä×%Ñ%×.Ñ.¨xÓ8ˆ	Üˆy‰Ó 1Ò$ÜK‰KÐCÔDØ6ˆMà&*×&;Ñ&;¸IÓ&FÑ#ˆ˜à;‰;×#Ñ#¤{×'<Ñ'<Ò<Ü×'Ñ'×2Ñ2°6¸8¿=¹=È5Ñ;PÓQˆGÜ ×-Ñ-×8Ñ8¸ÀÇÁÐQZÑAZÓ[‰Mä—k‘k×-Ñ-¨h¯m©m¸hÑ.FÈÈyÏÉÐ`f×`nÑ`nÓ`pÐrvÓwˆGÜ ×-Ñ-×8Ñ8¸ÀÇÁÐQ]ÑA]Ó^ˆMà—]‘]ò 	ˆEØz‰z˜WÓ$Ø—‘×$Ñ$ UÔ+Ùð	ð
 	×Ñ×"Ñ" G¨]Ð#;Ô<àˆà;‰;×#Ñ#¤{×'<Ñ'<Ó<ØŸ:™: a™=¨'¯,©,¸×8JÑ8JÐKˆKØ—;‘;×+Ò+Ü ×-Ñ-×8Ñ8¸ÀhÇmÁmÐVdÑFdÓe	Ø×"Ñ" 9§>¡>Ô2Ø×#Ñ#×*Ñ*¨I¨;Ô7ØˆFØ"Ÿ™‰JˆD$ØˆF3‰KØˆF3‰KØˆF6‰NØ#'§;¡;×#9Ñ#9ˆF<Ñ Ø{‰{×)Ñ)Ð5Ø+/¯;©;×+EÑ+EÐ'Ñ(ä!Ÿ[™[×2Ñ2Øðà"ØŸ™ Q™Ð(Ø*.¯)ª)T—Y‘Y Ò&¸Ø&ñð ñˆNð ×Ñ Ö/à%Ÿl™l¨M×,>Ñ,>Ð?ˆNØ&Ÿ|™|¨iÑ7Ð8ˆOØ"&§*¡*¨Q¡-°ÀÑ1CÐ!DÐØ#'§;¡;¨q¡>Ð"2ÐØ—;‘;×+Ò+Ü ŸK™K×3Ñ3Ø—M‘MÐ$5Ñ5°u¸f¿l¹lÈK×L_ÑL_ÓLaÐcgó	ð ×%Ñ% i§n¡nÔ5Ø×#Ñ#×*Ñ*¨I¨;Ô7Ø!"°$·+±+×2HÑ2HÑIˆIÜ—k‘k×+Ñ+Ø"ðà%Ø'Ø-1¯YªYT—Y‘Y Ò)¸Bñ	ð
 ñˆGô Ÿ+™+×/Ñ/ØØ)Ø+Ø15·²T—Y‘Y Ò-Àð	 0ó ˆKð ×Ñ ¨+Ð 6Ô7ä‰Ð/°·	±	¨{¸$Ð?Ô@ØÐr   N)rQ   r>   )rû   znpt.ArrayLikerð   z)tuple[np.ndarray, np.ndarray, np.ndarray]rî   )r   r   r   r   rÿ   rë   r   r   r   r÷   r÷   ®  s   „ óó ,ôD]r   r÷   c                  óf   — e Zd ZdZddddej
                  df	 	 	 	 	 	 	 	 	 d
d„Zdd„Zd„ Zd„ Z	d	„ Z
y)ÚMatMul4BitsQuantizerao  
    Perform 4b quantization of constant MatMul weights.
    If algo_config.quant_format is QOperator, the quantized weight is stored in a MatMulNBits node, which relaces the
    MatMul node.
    If algo_config.quant_format is QDQ, the quantized weight is stored in a DeQuantizeLinear node. The MatMul node is
    replaced by the DequantizeLinear + MatMul nodes.
    r-   FNc                óê  — |€g }t        |t        «      rt        t        j                  |«      «      n
t        |«      | _        t        |t        «      r|nd | _        || _        || _        || _	        t        |«      | _        d | _        |€t        ||||¬«      }|| _        |j                  dk(  rt!        | j                  «      | _        y |j                  dk(  rt#        | j                  «      | _        y y )N©r2   rA   rB   r   r:   r@   )Ú
isinstanceÚstrr   rÀ   ÚloadÚmodelÚ
model_pathr2   rA   rB   ÚsetÚnodes_to_excludeÚnode_quantizerr>   Úalgo_configr   rN   r÷   )r   r  r2   rA   rB   r!  r   r#  s           r   r   zMatMul4BitsQuantizer.__init__=  sã   € ð Ð#Ø!ÐÜ4>¸uÄcÔ4J”YœtŸy™y¨Ó/Ô0ÔPYÐZ_ÓP`ˆŒ
Ü#-¨e´SÔ#9™%¸tˆŒØ$ˆŒØ(ˆÔØ,ˆÔÜ #Ð$4Ó 5ˆÔØ"ˆÔØÐÜ6Ø%Ø)Ø-Ø)ô	ˆKð 'ˆÔØ× Ñ  EÒ)Ü"8¸×9IÑ9IÓ"JˆDÕØ×"Ñ" iÒ/Ü"<¸T×=MÑ=MÓ"NˆDÕð 0r   c                ó®  — g }|d   }|j                   D ]|  }|j                  D cg c]R  }|j                  t        j                  j
                  k(  s'|j                  t        j                  j                  k(  r|‘ŒT }}t        |«      rVi }|j                  D ]ù  }|j                  t        j                  j
                  k(  r9|j                  |j                  «       |j                  | j                  |«      i}n†|j                  t        j                  j                  k(  rTg }	|j                  D ]4  }
|j                  |
«       |	j                  | j                  |«      g«       Œ6 |j                  |	i}nt        |«      }|j                  |«       Œû t        j                   j"                  |j$                  |j&                  |j(                  fd|j                  i|¤Ž}g }|j                  | j*                  v r't,        j/                  d|j                  › d«       |g}n^| j0                  6| j0                  j2                  dk(  r| j4                  j7                  ||«      }n| j4                  j7                  ||«      }|j                  |«       Œ |j9                  d«       |j                   j                  |«       |j;                  «        |S c c}w )Nr   r¶   zexclude to quantize z$ as specified by nodes_to_exclude...r:   rÔ   )rÔ   Ú	attributeÚtyperÀ   ÚAttributeProtoÚGRAPHÚGRAPHSrÃ   rÐ   Úgr¶   Ú_process_subgraphÚgraphsrÏ   r   ÚupdaterÑ   rÒ   r»   r¾   rÓ   r!  r¼   r½   r#  r   r"  rë   Ú
ClearFieldÚpop)r   rÕ   Ú	new_nodesrõ   rÔ   ÚattrÚgraph_attrsré   ÚkvÚvalueÚsubgraphÚ	out_nodess               r   r+  z&MatMul4BitsQuantizer._process_subgraph]  si  € Øˆ	Ø˜B‘ˆà—J‘Jó "	(ˆDð !ŸN™NöàØ—9‘9¤× 3Ñ 3× 9Ñ 9Ò9¸T¿Y¹YÌ$×J]ÑJ]×JdÑJdÒ=dò ðˆKð ô
 ;ÕØØ ŸN™Nò &DØ—y‘y¤D×$7Ñ$7×$=Ñ$=Ò=à#×*Ñ*¨4¯6©6Ô2Ø"Ÿi™i¨×)?Ñ)?ÀÓ)LÐM™ØŸ™¤d×&9Ñ&9×&@Ñ&@Ò@Ø "˜Ø(,¯©ò P˜Hà'×.Ñ.¨xÔ8Ø!ŸL™L¨$×*@Ñ*@ÀÓ*MÐ)NÕOðPð #Ÿi™i¨Ð/™ä/°Ó5˜Ø—M‘M "Õ%ð&ô —{‘{×,Ñ,Ø—L‘L $§*¡*¨d¯k©kñØ@DÇ	Á	ðØMSñð ˆIØy‰y˜D×1Ñ1Ñ1Ü—‘Ð2°4·9±9°+Ð=aÐbÔcØ!˜F‘	Ø×!Ñ!Ð-°$×2BÑ2B×2LÑ2LÐPUÒ2UØ ×/Ñ/×8Ñ8¸¸{ÓK‘	à ×/Ñ/×8Ñ8¸¸{ÓK	Ø×Ñ˜YÖ'ðE"	(ðH 	×Ñ˜Ô Ø
‰
×Ñ˜)Ô$Ø‰ÔØˆùòMs   ¦AKc           	     óh  — i }d| j                   | j                  rdnddœ}| j                  j                  j                  j                  D ]_  }|j
                  dv sŒt        |j                  D cg c]  }| j                  j                  |«      du ‘Œ! c}«      rŒQ|||j                  <   Œa |S c c}w )z3Generate weight only quant configuration for nodes.r8   ÚsymÚasym)r;   r˜   Úscheme)r¦   N)
r2   rA   r  rõ   rÔ   r»   Úallr¾   r¿   r¶   )r   Úq4_node_configÚtemplate_config_q4rÔ   r|   s        r   Ú_generate_q4_node_configz-MatMul4BitsQuantizer._generate_q4_node_configŠ  s¢   € àˆàØŸ/™/Ø#×0Ò0‘e°fñ
Ðð
 —J‘J×$Ñ$×*Ñ*×/Ñ/ò 	CˆDØ|‰|˜zÒ)ÜÈ4Ï:É:ÖVÀa˜DŸJ™J×6Ñ6°qÓ9¸TÒAÒVÕWØ0BN 4§9¡9Ò-ð	Cð Ðùò Ws   Á0$B/
c                ó^  ‡ — ˆ fd„}i }‰ j                   ‰ j                   |d<   ‰ j                  «       }‰ j                  j                  }t        j                  d|› d«       |dk(  r\ddlm} ‰ j                  j                  |d	<    |d‰ j                  ‰ j                  n‰ j                  j                  |d
œ|¤Ž‰ _
        nÑ|dk(  rÌddlm} ‰ j                  j                  |d<   ‰ j                  j                  |d<   ‰ j                  j                  |d<   ‰ j                  j                  |d<   ‰ j                  j                   |d<   d|d<    |«       } |d‰ j                  ‰ j                  n‰ j                  j                  ||dœ|¤Ž‰ _
        t        j                  d|› d«       y)u  4b quantize a model with RTN or GPTQ algorithm. Please refer to
        https://github.com/intel/neural-compressor/blob/master/docs/source/quantization_weight_only.md
        for more details on weight only quantization using IntelÂ® Neural Compressor.
        c               3  óz   •K  — t        j                  ‰j                  j                  «      } | D ]  }|d f–— Œ
 y ­wrG   )ÚcopyÚdeepcopyr#  r0   )Údata_readerÚdatar   s     €r   Úinc_dataloaderz<MatMul4BitsQuantizer.int4_quant_algo.<locals>.inc_dataloaderž  s:   øè ø€ ÜŸ-™-¨×(8Ñ(8×(PÑ(PÓQˆKØ#ò !Ø˜DjÓ ñ!ùs   ƒ8;NrB   zstart to quantize model with z algorithm...r#   r   )Úrtn_quantizer&   )r  Úweight_configr/   )Úgptq_quantizer1   Ú	blocksizer3   r4   r5   r   Ú	n_samples)r  rG  Ú
dataloaderz$complete quantization of model with z algorithm.r   )rB   r>  r#  r   r¼   r½   Ú.neural_compressor.adaptor.ox_utils.weight_onlyrF  r&   r  r  rH  r1   r2   r3   r4   r5   )r   rE  ré   Úweight_only_node_configr   rF  rH  rK  s   `       r   Úint4_quant_algoz$MatMul4BitsQuantizer.int4_quant_algo˜  sž  ø€ ô	!ð
 ˆØ×ÑÐ*Ø'+×':Ñ':ˆFÐ#Ñ$Ø"&×"?Ñ"?Ó"AÐà×$Ñ$×.Ñ.ˆ	Ü‰Ð3°I°;¸mÐLÔMØ˜ÒÝSà#×/Ñ/×6Ñ6ˆF8Ñá%ð Ø)-¯©Ð)Dd—o’oÈ$Ï*É*×JZÑJZØ5ñð ñˆDJð
 ˜&Ò ÝTà!%×!1Ñ!1×!:Ñ!:ˆF:ÑØ"&×"2Ñ"2×"=Ñ"=ˆF;ÑØ!%×!1Ñ!1×!:Ñ!:ˆF:ÑØ ×,Ñ,×0Ñ0ˆF5‰MØ#'×#3Ñ#3×#>Ñ#>ˆF<Ñ Ø"$ˆF;ÑÙ'Ó)ˆJá&ð Ø)-¯©Ð)Dd—o’oÈ$Ï*É*×JZÑJZØ5Ø%ñð ñ	ˆDŒJô 	‰Ð:¸9¸+À[ÐQÕRr   c                óx  — | j                   j                  dv r| j                  j                  «       g}| j                   j                  t
        j                  k(  r| j                  j                  dd«       n{| j                  j                  «       }|D ]\  }|j                  dv sŒ|j                  dk  sŒ"t        j                  d«       | j                  j                  |j                  d«       Œ^ | j                  |«       | j                  j                  «        y 	 t        j                   d«       d
d l}t        j,                  |j.                  «      t        j,                  d«      k\  sJ d«       ‚| j1                  «        y # t"        $ r)}t%        j&                  |› d«       t)        d	«      |‚d }~ww xY w)N)r:   r@   r²   r   )Nzai.onnxr±   é   zžThe opset of the input model is under 21 and doesn't support int4 data type. Force to update it to opset 21, but the generated model may not be a valid model.Úneural_compressorú.zLneural-compressor is not correctly installed. Please check your environment.r   z2.3.2zGRequire neural-compressor >= 2.3.2 to support weight only quantization!)r#  r   r  rõ   r   r   r$   Úset_opset_importÚopset_importr·   r   r¼   Úwarningr+  Úclean_initializersÚ	importlibÚimport_moduleÚ	ExceptionÚloggingÚerrorÚRuntimeErrorrQ  ÚparseÚ__version__rN  )r   rÕ   rT  ÚopsetÚerQ  s         r   ÚprocesszMatMul4BitsQuantizer.processÇ  s}  € Ø×Ñ×%Ñ%Ð);Ò;àŸ:™:×+Ñ+Ó-Ð.ˆKð ×Ñ×,Ñ,´×0EÑ0EÒEØ—
‘
×+Ñ+¨O¸QÕ?à#Ÿz™z×6Ñ6Ó8Ø)ò FEØ—|‘|Ð'<Ò<ÀÇÁÐQSÓASÜŸ™ðpôð Ÿ
™
×3Ñ3°E·L±LÀ"ÕEðFð ×"Ñ" ;Ô/ØJ‰J×)Ñ)Õ+ðÜ×'Ñ'Ð(;Ô<ó %ä—=‘=Ð!2×!>Ñ!>Ó?Ä7Ç=Á=ØóDò ð YàXóYð ð × Ñ Õ"øô ò Ü—‘   1˜gÔ&Ü"Øbóàðûðús   Ä!F Æ	F9Æ$F4Æ4F9)
r  zModelProto | strr2   rC   rA   rD   rB   rE   r#  zWeightOnlyQuantConfig | None)rÕ   rï   )r   r   r   Ú__doc__r   r$   r   r+  r>  rN  ra  r   r   r   r  r  4  st   „ ñð Ø"Ø%)ØØ ×*Ñ*Ø48ðOàðOð ðOð ð	Oð
 #ðOð 2óOó@+òZò-Só^$#r   r  c                ó&   — | j                  «       dv S )N)ÚtrueÚ1)Úlower)r4  s    r   Úort_convert_str_to_boolrg  î  s   € Ø;‰;‹=˜MÐ)Ð)r   c            
     óh  — t        j                  d¬«      } | j                  ddd¬«       | j                  ddd¬«       | j                  d	d
dt        d¬«       | j                  ddt        g d¢d¬«       | j                  ddt        d¬«       | j                  dd
dddt
        dd
gd¬«       | j                  dd
t        d¬«       | j                  ddd
d ¬!«       | j                  d
¬"«       | j                  d#d$t        d
g d%¬&«       | j                  d'd(t        d(d)gd*¬«       | j                  «       S )+Na
  Blockwise int4 quantization for MatMul 2D weight matrices.

A weight matrix is partitioned into into blocks, where each block is a
continguous subset inside each column. Each block is quantized into a
set of 4b integers with a scaling factor and an optional offset.
)Údescriptionz--input_modelTzPath to the input model file)ÚrequiredÚhelpz--output_modelzPath to the output model filez--block_sizeFé    zBlock size for quantization)rj  Údefaultr&  rk  z--quant_methodrm  )rm  ÚhqqÚrtnÚgptquW   the algorithm used to quantize weight, 
rtn and gptq leverage IntelÂ® Neural Compressor)rm  r&  Úchoicesrk  z--bitsr8   z#the target bits to represent weight)rm  r&  rk  z--symmetricú?zWIndicate whether to quantize the model symmetrically, symmetric is not supported by hqq)rj  rm  ÚconstÚnargsr&  rq  rk  z--accuracy_levelzíAccuracy level of the 4-bit quantized MatMul computation. Refer to the MatMulNBits contrib op's 'accuracy_level' attribute for details (https://github.com/microsoft/onnxruntime/blob/main/docs/ContribOperators.md#commicrosoftmatmulnbits).)rj  r&  rk  z-vz	--verboseÚ
store_true)rj  Úaction)rx   z--nodes_to_excludeú+zBSpecify the nodes to be excluded from quantization with node names)rt  r&  rj  rm  rk  z--quant_formatr$   ÚQDQz±QuantFormat {QOperator, QDQ}QOperator format quantizes the model with quantized operators directly.QDQ format quantize the model by inserting DeQuantizeLinear before the MatMul.)ÚargparseÚArgumentParserÚadd_argumentrC   r  rg  Úset_defaultsÚ
parse_args)Úparsers    r   r}  r}  ò  s{  € Ü×$Ñ$ðô€Fð ×Ñ˜°$Ð=[ÐÔ\Ø
×ÑÐ(°4Ð>]ÐÔ^Ø
×Ñ˜°ÀÌÐSpÐÔqØ
×ÑØØÜÚ1Øgð ô ð ×Ñ˜¨!´#Ð<aÐÔbØ
×ÑØØØØØÜ$ØuØfð ô 	ð ×ÑØØÜðqð	 ô ð ×Ñ˜˜k°EÀ,ÐÔOØ
×Ñ ÐÔ&Ø
×ÑØØÜØØØQð ô ð ×ÑØØÜØ˜eÐ$ðYð ô ð ×ÑÓÐr   Ú__main__zfile z already existsrn  zAsymmetric is not supportted by hqq, will force to symmetric=FalseF)r2   r;   rm  r  ro  rp  )r2   z!Unsupported quantization method: )r  rB   r!  r#  T)ró   rï   rð   ztuple[TensorProto, GraphProto])JÚ
__future__r   ry  rA  rW  rZ  ÚosrË   rH   Únumpy.typingÚtypingÚnptrÀ   Úonnx.onnx_pbr   r   r   r   Ú	packagingr   Úonnxruntime.capi._pybind_stater	   r
   Ú	calibrater   Ú
onnx_modelr   Úquant_utilsr   r   ÚbasicConfigÚINFOÚ	getLoggerr   r¼   r   r!   r,   r7   r>   rL   rN   r¿   r÷   r  rg  r}  Úargsrx   ÚsetLevelÚDEBUGÚinput_modelÚinput_model_pathÚoutput_modelÚoutput_model_pathr   ÚpathÚexistsr[  rY  Ú	symmetricÚquant_methodrU  r  r  r2   r;   Úquant_configrB   rú   r!  Úquantra  Úsave_model_to_filer   r   r   ú<module>rœ     s”  ðõ #ã Û Û Û Û 	ã Ý Û ß GÓ GÝ ç [å ,Ý !ß 8à €× Ñ ÐOÐW^×WcÑWcÕ dØ	ˆ×	Ñ	˜8Ó	$€÷)ñ )ôÐ4ô ô:,%Ð 5ô ,%ô^ Ð4ô  ôF-Ð#8ô -ò@4÷a ñ a óH÷Cñ C÷Lw#ñ w#òt*ò;ð| ˆzÓÙ‹<€DØ‡|‚|Ø‰˜Ÿ™Ô&à×'Ñ'ÐØ×)Ñ)ÐØ˜t×0Ñ0Ñ1€Là	‡ww‡~~Ð'Ô(Ø‰uÐ.Ð/¨Ð?Ô@Ù˜%Ð 1Ð2°/ÐBÓCÐCà‡~‚~˜$×+Ñ+¨uÒ4Ø‰ÐZÔ[ØˆŒàˆDI‰IÐ&Ó'€EØ×Ñ˜EÒ!Ù/¸4¿?¹?ÐQU×QZÑQZÔ[‰Ø	×	Ñ	˜iÒ	'Ù3Ø—‘ØŸ™Ø×.Ñ.Ø%ô	
‰ð 
×	Ñ	˜eÒ	#Ù/Ó1‰Ø	×	Ñ	˜fÒ	$Ù0¸D¿O¹OÔL‰áÐ<¸T×=NÑ=NÐ<OÐPÓQÐQá ØØ×*Ñ*Ø×.Ñ.Ø ô	€Eð 
‡MM„OØ	‡KK×"Ñ"Ð#4°dÕ;ðS r   