Training in progress, step 70000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +2 -2
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:437bdcfa884f243eb057db287fb27ac37ef2a0326b1d025d8ffcaaa891bad6ea
-size 50044241

 version https://git-lfs.github.com/spec/v1
+oid sha256:c11a259e2fcb4db9bb25889155e0b96cd678f633b923947bdf13de2be4bf3ae6
+size 50044689

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8d066230793a00e463dada238cbf68fe9a6e4506761309bbc7272fd63bd501d9
 size 25761253

 version https://git-lfs.github.com/spec/v1
+oid sha256:2ca06a94bd9a048e9a1048edd363d5f15c12bf594452e56a2cb99b829fdbf580
 size 25761253

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4b53ff89d37c2976f0dbf329b38e7e3851775fcd8b4f21d8e3166437bbe7a48e
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:43dbf8e062e9d4eda243137e0b414d7704f82717578f44d0ec7e823055c550c1
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4b53ff89d37c2976f0dbf329b38e7e3851775fcd8b4f21d8e3166437bbe7a48e
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:43dbf8e062e9d4eda243137e0b414d7704f82717578f44d0ec7e823055c550c1
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4b53ff89d37c2976f0dbf329b38e7e3851775fcd8b4f21d8e3166437bbe7a48e
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:43dbf8e062e9d4eda243137e0b414d7704f82717578f44d0ec7e823055c550c1
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4b53ff89d37c2976f0dbf329b38e7e3851775fcd8b4f21d8e3166437bbe7a48e
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:43dbf8e062e9d4eda243137e0b414d7704f82717578f44d0ec7e823055c550c1
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4b53ff89d37c2976f0dbf329b38e7e3851775fcd8b4f21d8e3166437bbe7a48e
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:43dbf8e062e9d4eda243137e0b414d7704f82717578f44d0ec7e823055c550c1
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4b53ff89d37c2976f0dbf329b38e7e3851775fcd8b4f21d8e3166437bbe7a48e
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:43dbf8e062e9d4eda243137e0b414d7704f82717578f44d0ec7e823055c550c1
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4b53ff89d37c2976f0dbf329b38e7e3851775fcd8b4f21d8e3166437bbe7a48e
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:43dbf8e062e9d4eda243137e0b414d7704f82717578f44d0ec7e823055c550c1
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4b53ff89d37c2976f0dbf329b38e7e3851775fcd8b4f21d8e3166437bbe7a48e
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:43dbf8e062e9d4eda243137e0b414d7704f82717578f44d0ec7e823055c550c1
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6a14cae2e3d67695f0ffa4604dbaaa3f7147d70607921bb89c9afa09d57c87a5
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:d89de13f8c844c8306762a31aff6dac5ffaadd95c6501762d83dc7939ed9eace
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.6764705882352944,
-  "global_step": 60000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1206,11 +1206,211 @@
       "eval_samples_per_second": 755.286,
       "eval_steps_per_second": 12.085,
       "step": 60000
     }
   ],
   "max_steps": 250000,
   "num_train_epochs": 16,
-  "total_flos": 9.609779856839792e+20,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 4.28921568627451,
+  "global_step": 70000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 755.286,
       "eval_steps_per_second": 12.085,
       "step": 60000
+    },
+    {
+      "epoch": 3.71,
+      "learning_rate": 0.0005425079773152721,
+      "loss": 0.5113,
+      "step": 60500
+    },
+    {
+      "epoch": 3.74,
+      "learning_rate": 0.0005413455519215879,
+      "loss": 0.5105,
+      "step": 61000
+    },
+    {
+      "epoch": 3.74,
+      "eval_loss": 0.8522316813468933,
+      "eval_runtime": 1.2934,
+      "eval_samples_per_second": 773.185,
+      "eval_steps_per_second": 12.371,
+      "step": 61000
+    },
+    {
+      "epoch": 3.77,
+      "learning_rate": 0.0005401727880078093,
+      "loss": 0.5102,
+      "step": 61500
+    },
+    {
+      "epoch": 3.8,
+      "learning_rate": 0.0005389897368744289,
+      "loss": 0.5099,
+      "step": 62000
+    },
+    {
+      "epoch": 3.8,
+      "eval_loss": 0.8549780249595642,
+      "eval_runtime": 1.3356,
+      "eval_samples_per_second": 748.732,
+      "eval_steps_per_second": 11.98,
+      "step": 62000
+    },
+    {
+      "epoch": 3.83,
+      "learning_rate": 0.0005377964502719361,
+      "loss": 0.5099,
+      "step": 62500
+    },
+    {
+      "epoch": 3.86,
+      "learning_rate": 0.0005365929803985524,
+      "loss": 0.5094,
+      "step": 63000
+    },
+    {
+      "epoch": 3.86,
+      "eval_loss": 0.8536927700042725,
+      "eval_runtime": 1.2799,
+      "eval_samples_per_second": 781.291,
+      "eval_steps_per_second": 12.501,
+      "step": 63000
+    },
+    {
+      "epoch": 3.89,
+      "learning_rate": 0.0005353793798979489,
+      "loss": 0.5093,
+      "step": 63500
+    },
+    {
+      "epoch": 3.92,
+      "learning_rate": 0.000534155701856943,
+      "loss": 0.509,
+      "step": 64000
+    },
+    {
+      "epoch": 3.92,
+      "eval_loss": 0.8535122871398926,
+      "eval_runtime": 1.2782,
+      "eval_samples_per_second": 782.329,
+      "eval_steps_per_second": 12.517,
+      "step": 64000
+    },
+    {
+      "epoch": 3.95,
+      "learning_rate": 0.0005329219998031763,
+      "loss": 0.5087,
+      "step": 64500
+    },
+    {
+      "epoch": 3.98,
+      "learning_rate": 0.0005316783277027734,
+      "loss": 0.5091,
+      "step": 65000
+    },
+    {
+      "epoch": 3.98,
+      "eval_loss": 0.8591586351394653,
+      "eval_runtime": 1.3143,
+      "eval_samples_per_second": 760.882,
+      "eval_steps_per_second": 12.174,
+      "step": 65000
+    },
+    {
+      "epoch": 4.01,
+      "learning_rate": 0.0005304247399579808,
+      "loss": 0.508,
+      "step": 65500
+    },
+    {
+      "epoch": 4.04,
+      "learning_rate": 0.0005291612914047876,
+      "loss": 0.5079,
+      "step": 66000
+    },
+    {
+      "epoch": 4.04,
+      "eval_loss": 0.8554427027702332,
+      "eval_runtime": 1.3483,
+      "eval_samples_per_second": 741.678,
+      "eval_steps_per_second": 11.867,
+      "step": 66000
+    },
+    {
+      "epoch": 4.07,
+      "learning_rate": 0.0005278880373105263,
+      "loss": 0.5077,
+      "step": 66500
+    },
+    {
+      "epoch": 4.11,
+      "learning_rate": 0.0005266050333714561,
+      "loss": 0.5074,
+      "step": 67000
+    },
+    {
+      "epoch": 4.11,
+      "eval_loss": 0.8515585660934448,
+      "eval_runtime": 1.2858,
+      "eval_samples_per_second": 777.712,
+      "eval_steps_per_second": 12.443,
+      "step": 67000
+    },
+    {
+      "epoch": 4.14,
+      "learning_rate": 0.0005253123357103253,
+      "loss": 0.5074,
+      "step": 67500
+    },
+    {
+      "epoch": 4.17,
+      "learning_rate": 0.0005240100008739177,
+      "loss": 0.5069,
+      "step": 68000
+    },
+    {
+      "epoch": 4.17,
+      "eval_loss": 0.8490995168685913,
+      "eval_runtime": 1.2974,
+      "eval_samples_per_second": 770.751,
+      "eval_steps_per_second": 12.332,
+      "step": 68000
+    },
+    {
+      "epoch": 4.2,
+      "learning_rate": 0.0005226980858305778,
+      "loss": 0.5067,
+      "step": 68500
+    },
+    {
+      "epoch": 4.23,
+      "learning_rate": 0.0005213766479677197,
+      "loss": 0.5066,
+      "step": 69000
+    },
+    {
+      "epoch": 4.23,
+      "eval_loss": 0.8570588231086731,
+      "eval_runtime": 1.2957,
+      "eval_samples_per_second": 771.773,
+      "eval_steps_per_second": 12.348,
+      "step": 69000
+    },
+    {
+      "epoch": 4.26,
+      "learning_rate": 0.0005200457450893163,
+      "loss": 0.5063,
+      "step": 69500
+    },
+    {
+      "epoch": 4.29,
+      "learning_rate": 0.0005187054354133712,
+      "loss": 0.5068,
+      "step": 70000
+    },
+    {
+      "epoch": 4.29,
+      "eval_loss": 0.8535866141319275,
+      "eval_runtime": 1.3217,
+      "eval_samples_per_second": 756.603,
+      "eval_steps_per_second": 12.106,
+      "step": 70000
     }
   ],
   "max_steps": 250000,
   "num_train_epochs": 16,
+  "total_flos": 1.1211359780461682e+21,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8d066230793a00e463dada238cbf68fe9a6e4506761309bbc7272fd63bd501d9
 size 25761253

 version https://git-lfs.github.com/spec/v1
+oid sha256:2ca06a94bd9a048e9a1048edd363d5f15c12bf594452e56a2cb99b829fdbf580
 size 25761253