大模型微调踩坑：RuntimeError: element 0 of tensors does not require grad and does not have a grad_fn

今天在微调Llama-3.1-8B-Instruct模型时遇到了一个奇怪的错误。当我尝试使用QLoRA和PEFT进行微调时，程序报错提示。

taichiXD

239人浏览 · 2025-07-26 10:43:30

taichiXD · 2025-07-26 10:43:30 发布

今天在微调Llama-3.1-8B-Instruct模型时遇到了一个奇怪的错误。当我尝试使用QLoRA和PEFT进行微调时，程序报错提示

    return Variable._execution_engine.run_backward(  # Calls into the C++ engine to run the backward pass                       
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^                       
RuntimeError: element 0 of tensors does not require grad and does not have a grad_fn

解决方法：

在调用get_peft_model之前添加以下代码即可解决：

model.enable_input_require_grads()
model = get_peft_model(model, peft_config)

整个流程的重要代码：

bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16,
    bnb_4bit_use_double_quant=True,
)

peft_config = LoraConfig(
    r=16,
    lora_alpha=32,
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM",
    target_modules=["q_proj", "k_proj", "v_proj"]
    #["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj"],
)

training_args = SFTConfig(
    output_dir="./model_7b",
    per_device_train_batch_size=1,
    gradient_accumulation_steps=4,
    learning_rate=2e-5,
    num_train_epochs=1,
    max_steps=-1,
    lr_scheduler_type="cosine",
    warmup_steps=100,
    logging_steps=10,
    save_steps=50,
    save_total_limit=2,
    fp16=False,
    bf16=True,
    gradient_checkpointing=True,
    optim="paged_adamw_8bit",
    dataset_text_field="messages"
)


tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
tokenizer.pad_token = tokenizer.eos_token
tokenizer.padding_side = "right" 
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    quantization_config=bnb_config,
    device_map="auto",
    trust_remote_code=True,
)

# 这一行代码可以解决这个报错
# ===================================
model.enable_input_require_grads()
# ===================================
model = get_peft_model(model, peft_config)
model.print_trainable_parameters()
model.config.use_cache = False
model.gradient_checkpointing_enable()
model.train()

trainer = SFTTrainer(
    model=model,
    train_dataset=dataset,
    peft_config=peft_config,
    args=training_args,
)

火山引擎开发者社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

超越工具，重塑核心：构建企业AI价值中枢的深度范式

企业AI应用正从"技术项目"转向"业务价值中枢"，通过构建智能能力中间层实现AI价值转化。报告提出三大核心操作：1）能力组件化，将AI封装为可复用的业务积木；2）流程自动化，实现端到端智能业务流；3）交互Agent化，打造拟人化业务伙伴。实施路径分为四阶段：价值锚定、平台构建、生态扩展和原生进化。成功关键在于组织转型，从项目制转向产品制运营，建立跨职能团队和

火山引擎开发者社区

2025年12月21日全球AI前沿动态

火山引擎开发者社区

超越代码的狂欢：AI赋能业务系统，方为价值“真王道”

AI技术的企业应用正从"赋能开发"向"赋能业务"战略转型。本文通过对比分析指出，AI在CRM、ERP、SCM等核心业务系统的深度集成能创造更大价值：Salesforce的AI引擎提升销售效率34%；金蝶AI应用实现记账效率10倍提升；SAP的智能供应链方案带来285%的ROI。研究提出AI应从开发辅助工具转变为业务智能伙伴，通过多模态感知、自主智能体协同等技术重构企业核心业务流程，实现从效率优化到