load_in_4bit:一个布尔值,用于指示是否将数据加载到4位宽的寄存器中。 bnb_4bit_compute_dtype:一个数据类型,用于指定4位宽计算的数据类型。 bnb_4bit_use_double_quant:一个布尔值,用于指示是否使用双精度量化。 bnb_4bit_quant_type:一个字符串,用于指定4位宽量化的类型。 llm_int8_threshold:一个数值,用...
load_in_4bit:一个布尔值,指示是否加载4位量化权重。 bnb_4bit_compute_dtype:指定计算时使用的数据类型,例如torch.bfloat16或torch.float16。 bnb_4bit_use_double_quant:一个布尔值,指示是否使用双精度量化,这可以在第一轮量化后进一步节省内存。 bnb_4bit_quant_type:量化类型,如"nf4"表示NormalFloat4。
load_in_4bit=use_4bit, bnb_4bit_quant_type=bnb_4bit_quant_type, bnb_4bit_compute_dtype=compute_dtype, bnb_4bit_use_double_quant=use_nested_quant, ) model = AutoModelForCausalLM.from_pretrained( model_name, quantization_config=bnb_config, #pass to AutoModelForCausalLM device_map=device...