End of training

Browse files

Files changed (7) hide show

README.md +3 -2
all_results.json +12 -0
eval_results.json +7 -0
train_results.json +8 -0
trainer_state.json +429 -0
training_eval_loss.png +0 -0
training_loss.png +0 -0

README.md CHANGED Viewed

@@ -4,6 +4,7 @@ library_name: peft
 license: llama3.1
 tags:
 - llama-factory
 - generated_from_trainer
 model-index:
 - name: Llama-3.1-8B-Instruct-SFT-800
@@ -15,9 +16,9 @@ should probably proofread and complete it, then remove this comment. -->
 # Llama-3.1-8B-Instruct-SFT-800
-This model is a fine-tuned version of [meta-llama/Llama-3.1-8B-Instruct](https://huggingface.co/meta-llama/Llama-3.1-8B-Instruct) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.1243
 ## Model description

 license: llama3.1
 tags:
 - llama-factory
+- lora
 - generated_from_trainer
 model-index:
 - name: Llama-3.1-8B-Instruct-SFT-800
 # Llama-3.1-8B-Instruct-SFT-800
+This model is a fine-tuned version of [meta-llama/Llama-3.1-8B-Instruct](https://huggingface.co/meta-llama/Llama-3.1-8B-Instruct) on the bct_non_cot_sft_800 dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.1235
 ## Model description

all_results.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "epoch": 10.0,
+    "eval_loss": 0.12346285581588745,
+    "eval_runtime": 2.0598,
+    "eval_samples_per_second": 38.839,
+    "eval_steps_per_second": 19.419,
+    "total_flos": 4.027787393354957e+16,
+    "train_loss": 0.26821523129940034,
+    "train_runtime": 642.399,
+    "train_samples_per_second": 11.208,
+    "train_steps_per_second": 0.7
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 10.0,
+    "eval_loss": 0.12346285581588745,
+    "eval_runtime": 2.0598,
+    "eval_samples_per_second": 38.839,
+    "eval_steps_per_second": 19.419
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 10.0,
+    "total_flos": 4.027787393354957e+16,
+    "train_loss": 0.26821523129940034,
+    "train_runtime": 642.399,
+    "train_samples_per_second": 11.208,
+    "train_steps_per_second": 0.7
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,429 @@

+{
+  "best_metric": 0.12346285581588745,
+  "best_model_checkpoint": "saves/Llama-3.1-8B-Instruct/lora/sft-800/checkpoint-200",
+  "epoch": 10.0,
+  "eval_steps": 50,
+  "global_step": 450,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.2222222222222222,
+      "grad_norm": 7.030238628387451,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 1.6678,
+      "step": 10
+    },
+    {
+      "epoch": 0.4444444444444444,
+      "grad_norm": 6.172452449798584,
+      "learning_rate": 2.1111111111111114e-06,
+      "loss": 1.5986,
+      "step": 20
+    },
+    {
+      "epoch": 0.6666666666666666,
+      "grad_norm": 6.666406631469727,
+      "learning_rate": 3.2222222222222227e-06,
+      "loss": 1.549,
+      "step": 30
+    },
+    {
+      "epoch": 0.8888888888888888,
+      "grad_norm": 4.0742573738098145,
+      "learning_rate": 4.333333333333334e-06,
+      "loss": 1.4175,
+      "step": 40
+    },
+    {
+      "epoch": 1.1111111111111112,
+      "grad_norm": 3.02299427986145,
+      "learning_rate": 4.998796669702378e-06,
+      "loss": 1.1189,
+      "step": 50
+    },
+    {
+      "epoch": 1.1111111111111112,
+      "eval_loss": 0.9741103053092957,
+      "eval_runtime": 2.0516,
+      "eval_samples_per_second": 38.995,
+      "eval_steps_per_second": 19.497,
+      "step": 50
+    },
+    {
+      "epoch": 1.3333333333333333,
+      "grad_norm": 2.574375867843628,
+      "learning_rate": 4.9852725038674035e-06,
+      "loss": 0.8338,
+      "step": 60
+    },
+    {
+      "epoch": 1.5555555555555556,
+      "grad_norm": 2.0675790309906006,
+      "learning_rate": 4.956801616766033e-06,
+      "loss": 0.5267,
+      "step": 70
+    },
+    {
+      "epoch": 1.7777777777777777,
+      "grad_norm": 2.8309988975524902,
+      "learning_rate": 4.913555235663306e-06,
+      "loss": 0.4284,
+      "step": 80
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 2.8843226432800293,
+      "learning_rate": 4.855793449383731e-06,
+      "loss": 0.2176,
+      "step": 90
+    },
+    {
+      "epoch": 2.2222222222222223,
+      "grad_norm": 1.2611788511276245,
+      "learning_rate": 4.783863644106502e-06,
+      "loss": 0.1565,
+      "step": 100
+    },
+    {
+      "epoch": 2.2222222222222223,
+      "eval_loss": 0.15967388451099396,
+      "eval_runtime": 2.056,
+      "eval_samples_per_second": 38.91,
+      "eval_steps_per_second": 19.455,
+      "step": 100
+    },
+    {
+      "epoch": 2.4444444444444446,
+      "grad_norm": 1.5975863933563232,
+      "learning_rate": 4.698198414144136e-06,
+      "loss": 0.117,
+      "step": 110
+    },
+    {
+      "epoch": 2.6666666666666665,
+      "grad_norm": 0.8590288162231445,
+      "learning_rate": 4.599312960269375e-06,
+      "loss": 0.0813,
+      "step": 120
+    },
+    {
+      "epoch": 2.888888888888889,
+      "grad_norm": 0.4642271101474762,
+      "learning_rate": 4.48780199123712e-06,
+      "loss": 0.1048,
+      "step": 130
+    },
+    {
+      "epoch": 3.111111111111111,
+      "grad_norm": 0.8627158403396606,
+      "learning_rate": 4.3643361471360045e-06,
+      "loss": 0.1059,
+      "step": 140
+    },
+    {
+      "epoch": 3.3333333333333335,
+      "grad_norm": 0.6250473260879517,
+      "learning_rate": 4.22965796607999e-06,
+      "loss": 0.0611,
+      "step": 150
+    },
+    {
+      "epoch": 3.3333333333333335,
+      "eval_loss": 0.12997671961784363,
+      "eval_runtime": 2.0533,
+      "eval_samples_per_second": 38.961,
+      "eval_steps_per_second": 19.481,
+      "step": 150
+    },
+    {
+      "epoch": 3.5555555555555554,
+      "grad_norm": 1.1554416418075562,
+      "learning_rate": 4.084577418496775e-06,
+      "loss": 0.0917,
+      "step": 160
+    },
+    {
+      "epoch": 3.7777777777777777,
+      "grad_norm": 0.806210994720459,
+      "learning_rate": 3.929967035870346e-06,
+      "loss": 0.0933,
+      "step": 170
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 1.2217227220535278,
+      "learning_rate": 3.7667566632339557e-06,
+      "loss": 0.0805,
+      "step": 180
+    },
+    {
+      "epoch": 4.222222222222222,
+      "grad_norm": 0.717496931552887,
+      "learning_rate": 3.595927866972694e-06,
+      "loss": 0.0649,
+      "step": 190
+    },
+    {
+      "epoch": 4.444444444444445,
+      "grad_norm": 0.7854779362678528,
+      "learning_rate": 3.4185080315677454e-06,
+      "loss": 0.0975,
+      "step": 200
+    },
+    {
+      "epoch": 4.444444444444445,
+      "eval_loss": 0.12346285581588745,
+      "eval_runtime": 2.0576,
+      "eval_samples_per_second": 38.879,
+      "eval_steps_per_second": 19.44,
+      "step": 200
+    },
+    {
+      "epoch": 4.666666666666667,
+      "grad_norm": 0.8865996599197388,
+      "learning_rate": 3.2355641807852377e-06,
+      "loss": 0.084,
+      "step": 210
+    },
+    {
+      "epoch": 4.888888888888889,
+      "grad_norm": 0.9991048574447632,
+      "learning_rate": 3.0481965604697582e-06,
+      "loss": 0.0647,
+      "step": 220
+    },
+    {
+      "epoch": 5.111111111111111,
+      "grad_norm": 0.482669472694397,
+      "learning_rate": 2.8575320215363855e-06,
+      "loss": 0.0602,
+      "step": 230
+    },
+    {
+      "epoch": 5.333333333333333,
+      "grad_norm": 2.210219383239746,
+      "learning_rate": 2.6647172429566963e-06,
+      "loss": 0.0848,
+      "step": 240
+    },
+    {
+      "epoch": 5.555555555555555,
+      "grad_norm": 0.8471083045005798,
+      "learning_rate": 2.470911835496508e-06,
+      "loss": 0.0664,
+      "step": 250
+    },
+    {
+      "epoch": 5.555555555555555,
+      "eval_loss": 0.12403944879770279,
+      "eval_runtime": 2.0543,
+      "eval_samples_per_second": 38.943,
+      "eval_steps_per_second": 19.472,
+      "step": 250
+    },
+    {
+      "epoch": 5.777777777777778,
+      "grad_norm": 0.664802610874176,
+      "learning_rate": 2.2772813676802853e-06,
+      "loss": 0.093,
+      "step": 260
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 0.7576791048049927,
+      "learning_rate": 2.0849903559248907e-06,
+      "loss": 0.0575,
+      "step": 270
+    },
+    {
+      "epoch": 6.222222222222222,
+      "grad_norm": 1.3942710161209106,
+      "learning_rate": 1.895195261000831e-06,
+      "loss": 0.0708,
+      "step": 280
+    },
+    {
+      "epoch": 6.444444444444445,
+      "grad_norm": 0.9209055304527283,
+      "learning_rate": 1.7090375329411085e-06,
+      "loss": 0.0592,
+      "step": 290
+    },
+    {
+      "epoch": 6.666666666666667,
+      "grad_norm": 1.9221105575561523,
+      "learning_rate": 1.5276367462264152e-06,
+      "loss": 0.0974,
+      "step": 300
+    },
+    {
+      "epoch": 6.666666666666667,
+      "eval_loss": 0.12409935146570206,
+      "eval_runtime": 2.0546,
+      "eval_samples_per_second": 38.937,
+      "eval_steps_per_second": 19.468,
+      "step": 300
+    },
+    {
+      "epoch": 6.888888888888889,
+      "grad_norm": 0.6475366353988647,
+      "learning_rate": 1.3520838665324704e-06,
+      "loss": 0.0471,
+      "step": 310
+    },
+    {
+      "epoch": 7.111111111111111,
+      "grad_norm": 0.598598062992096,
+      "learning_rate": 1.1834346895340817e-06,
+      "loss": 0.062,
+      "step": 320
+    },
+    {
+      "epoch": 7.333333333333333,
+      "grad_norm": 0.4335130751132965,
+      "learning_rate": 1.0227034912257222e-06,
+      "loss": 0.0548,
+      "step": 330
+    },
+    {
+      "epoch": 7.555555555555555,
+      "grad_norm": 1.1936215162277222,
+      "learning_rate": 8.708569279463622e-07,
+      "loss": 0.0417,
+      "step": 340
+    },
+    {
+      "epoch": 7.777777777777778,
+      "grad_norm": 0.7542036771774292,
+      "learning_rate": 7.288082227945007e-07,
+      "loss": 0.0677,
+      "step": 350
+    },
+    {
+      "epoch": 7.777777777777778,
+      "eval_loss": 0.12392617762088776,
+      "eval_runtime": 2.0536,
+      "eval_samples_per_second": 38.956,
+      "eval_steps_per_second": 19.478,
+      "step": 350
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 0.44422823190689087,
+      "learning_rate": 5.974116733969989e-07,
+      "loss": 0.0847,
+      "step": 360
+    },
+    {
+      "epoch": 8.222222222222221,
+      "grad_norm": 0.7955084443092346,
+      "learning_rate": 4.774575140626317e-07,
+      "loss": 0.0621,
+      "step": 370
+    },
+    {
+      "epoch": 8.444444444444445,
+      "grad_norm": 1.8487240076065063,
+      "learning_rate": 3.6966716321997195e-07,
+      "loss": 0.0657,
+      "step": 380
+    },
+    {
+      "epoch": 8.666666666666666,
+      "grad_norm": 0.7747776508331299,
+      "learning_rate": 2.7468888472207606e-07,
+      "loss": 0.07,
+      "step": 390
+    },
+    {
+      "epoch": 8.88888888888889,
+      "grad_norm": 0.8187076449394226,
+      "learning_rate": 1.9309388911139427e-07,
+      "loss": 0.0486,
+      "step": 400
+    },
+    {
+      "epoch": 8.88888888888889,
+      "eval_loss": 0.12458845227956772,
+      "eval_runtime": 2.0523,
+      "eval_samples_per_second": 38.981,
+      "eval_steps_per_second": 19.49,
+      "step": 400
+    },
+    {
+      "epoch": 9.11111111111111,
+      "grad_norm": 2.2537145614624023,
+      "learning_rate": 1.2537289829235633e-07,
+      "loss": 0.0785,
+      "step": 410
+    },
+    {
+      "epoch": 9.333333333333334,
+      "grad_norm": 0.8826271891593933,
+      "learning_rate": 7.19331942720991e-08,
+      "loss": 0.0592,
+      "step": 420
+    },
+    {
+      "epoch": 9.555555555555555,
+      "grad_norm": 0.46676668524742126,
+      "learning_rate": 3.309616971855195e-08,
+      "loss": 0.0428,
+      "step": 430
+    },
+    {
+      "epoch": 9.777777777777779,
+      "grad_norm": 0.6508820056915283,
+      "learning_rate": 9.095395067115764e-09,
+      "loss": 0.0591,
+      "step": 440
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 1.4323163032531738,
+      "learning_rate": 7.52138005810643e-11,
+      "loss": 0.075,
+      "step": 450
+    },
+    {
+      "epoch": 10.0,
+      "eval_loss": 0.12433161586523056,
+      "eval_runtime": 2.0514,
+      "eval_samples_per_second": 38.997,
+      "eval_steps_per_second": 19.498,
+      "step": 450
+    },
+    {
+      "epoch": 10.0,
+      "step": 450,
+      "total_flos": 4.027787393354957e+16,
+      "train_loss": 0.26821523129940034,
+      "train_runtime": 642.399,
+      "train_samples_per_second": 11.208,
+      "train_steps_per_second": 0.7
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 450,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 50,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 4.027787393354957e+16,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

training_eval_loss.png ADDED Viewed

training_loss.png ADDED Viewed