Update train_ep.py

2024-11-24 21:13:38 +00:00 · 2024-08-12 10:28:35 +08:00 · 2024-08-12 10:28:35 +08:00 · 7a96df9be6
commit 7a96df9be6
parent 4bfa99486b
1 changed files with 2 additions and 3 deletions
--- a/train_ep.py
+++ b/train_ep.py
@ -126,7 +126,6 @@ def main():
        backward(loss, **kwargs)
        if not self.sync_gradients or edp_size == 1:
            return
-        return
        for p in expert_params:
            g = p.grad if p.grad is not None else torch.zeros_like(p)
            dist.all_reduce(g, op=dist.ReduceOp.AVG, group=edp_group)
@ -145,7 +144,7 @@ def main():
    if local_rank == 0:
        trainer.save_model(ckpt_path)
        tokenizer.save_pretrained(ckpt_path)
-    elif 0 < local_rank < ep_size:
+    elif local_rank < ep_size:
        model.save_pretrained(ckpt_path)

    print("Training complete")