jflotz commited on May 11, 2023

Commit

3cd6a82

1 Parent(s): fdc51a1

Training in progress, step 980000

Browse files

Files changed (17) hide show

config.json +1 -1
last-checkpoint/config.json +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
last-checkpoint/training_args.bin +1 -1
pytorch_model.bin +1 -1
training_args.bin +1 -1

config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "/scratch/project/dd-23-53/experiments/pixel-base-bigrams/checkpoint-570000",
   "architectures": [
     "PIXELForPreTraining"
   ],

 {
+  "_name_or_path": "/scratch/project/dd-23-53/experiments/pixel-base-bigrams/checkpoint-970000",
   "architectures": [
     "PIXELForPreTraining"
   ],

last-checkpoint/config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "_name_or_path": "/scratch/project/dd-23-53/experiments/pixel-base-bigrams/checkpoint-570000",
   "architectures": [
     "PIXELForPreTraining"
   ],

 {
+  "_name_or_path": "/scratch/project/dd-23-53/experiments/pixel-base-bigrams/checkpoint-970000",
   "architectures": [
     "PIXELForPreTraining"
   ],

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:de1b3977166c4e20fc41f424497409f61e5dbee702d8ad14048093e7cfab3225
 size 893439185

 version https://git-lfs.github.com/spec/v1
+oid sha256:aa6e21575dd459731b96c75fb2eff44427788a2b21e2cba9f9983669023c697a
 size 893439185

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ebc5b0eb8c3bb3dd69db934b29e5beccddfae1a796cf948830a8b05766d44497
 size 449471589

 version https://git-lfs.github.com/spec/v1
+oid sha256:081e5eabe8ef9a2817820443cfba02d1a6ecee053832fff6fbfbe29c77150986
 size 449471589

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3a10da665c924d0a78f574c75f6e0dbcce312de7ca6adb021d1a4f147f32e318
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:ac26c3fd0e63c430cd827768cc149848f896e9fbf6df9ca8358e31c62102f594
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3a10da665c924d0a78f574c75f6e0dbcce312de7ca6adb021d1a4f147f32e318
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:ac26c3fd0e63c430cd827768cc149848f896e9fbf6df9ca8358e31c62102f594
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3a10da665c924d0a78f574c75f6e0dbcce312de7ca6adb021d1a4f147f32e318
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:ac26c3fd0e63c430cd827768cc149848f896e9fbf6df9ca8358e31c62102f594
 size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3a10da665c924d0a78f574c75f6e0dbcce312de7ca6adb021d1a4f147f32e318
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:ac26c3fd0e63c430cd827768cc149848f896e9fbf6df9ca8358e31c62102f594
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3a10da665c924d0a78f574c75f6e0dbcce312de7ca6adb021d1a4f147f32e318
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:ac26c3fd0e63c430cd827768cc149848f896e9fbf6df9ca8358e31c62102f594
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3a10da665c924d0a78f574c75f6e0dbcce312de7ca6adb021d1a4f147f32e318
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:ac26c3fd0e63c430cd827768cc149848f896e9fbf6df9ca8358e31c62102f594
 size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3a10da665c924d0a78f574c75f6e0dbcce312de7ca6adb021d1a4f147f32e318
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:ac26c3fd0e63c430cd827768cc149848f896e9fbf6df9ca8358e31c62102f594
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3a10da665c924d0a78f574c75f6e0dbcce312de7ca6adb021d1a4f147f32e318
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:ac26c3fd0e63c430cd827768cc149848f896e9fbf6df9ca8358e31c62102f594
 size 14503

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9af3eb0d3db8162f6de4427ee5f19b1787f4bdb865e0ebda13f4fed6034a8890
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:b1f60f9446cba0320cf9ced93c4b14816af8d6988d011f7cc2f5b01e8ada101d
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 10.461148968916945,
-  "global_step": 970000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -19406,11 +19406,211 @@
       "eval_samples_per_second": 884.178,
       "eval_steps_per_second": 13.857,
       "step": 970000
     }
   ],
   "max_steps": 1000000,
   "num_train_epochs": 12,
-  "total_flos": 6.799670555468517e+22,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 10.929814973846515,
+  "global_step": 980000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 884.178,
       "eval_steps_per_second": 13.857,
       "step": 970000
+    },
+    {
+      "epoch": 10.82,
+      "learning_rate": 1.0332828229586692e-05,
+      "loss": 0.1799,
+      "step": 970500
+    },
+    {
+      "epoch": 10.83,
+      "learning_rate": 1.032165010471157e-05,
+      "loss": 0.1796,
+      "step": 971000
+    },
+    {
+      "epoch": 10.83,
+      "eval_loss": 0.17119638621807098,
+      "eval_runtime": 2.5911,
+      "eval_samples_per_second": 886.512,
+      "eval_steps_per_second": 13.894,
+      "step": 971000
+    },
+    {
+      "epoch": 10.84,
+      "learning_rate": 1.0310662477784401e-05,
+      "loss": 0.1804,
+      "step": 971500
+    },
+    {
+      "epoch": 10.84,
+      "learning_rate": 1.0299865378844936e-05,
+      "loss": 0.1798,
+      "step": 972000
+    },
+    {
+      "epoch": 10.84,
+      "eval_loss": 0.1710081547498703,
+      "eval_runtime": 2.5437,
+      "eval_samples_per_second": 903.014,
+      "eval_steps_per_second": 14.153,
+      "step": 972000
+    },
+    {
+      "epoch": 10.85,
+      "learning_rate": 1.028925883741203e-05,
+      "loss": 0.18,
+      "step": 972500
+    },
+    {
+      "epoch": 10.85,
+      "learning_rate": 1.0278842882483569e-05,
+      "loss": 0.1797,
+      "step": 973000
+    },
+    {
+      "epoch": 10.85,
+      "eval_loss": 0.17146818339824677,
+      "eval_runtime": 2.5692,
+      "eval_samples_per_second": 894.045,
+      "eval_steps_per_second": 14.012,
+      "step": 973000
+    },
+    {
+      "epoch": 10.86,
+      "learning_rate": 1.026861754253637e-05,
+      "loss": 0.1796,
+      "step": 973500
+    },
+    {
+      "epoch": 10.86,
+      "learning_rate": 1.025858284552612e-05,
+      "loss": 0.1797,
+      "step": 974000
+    },
+    {
+      "epoch": 10.86,
+      "eval_loss": 0.1706797480583191,
+      "eval_runtime": 2.6865,
+      "eval_samples_per_second": 855.008,
+      "eval_steps_per_second": 13.4,
+      "step": 974000
+    },
+    {
+      "epoch": 10.87,
+      "learning_rate": 1.0248738818887307e-05,
+      "loss": 0.1799,
+      "step": 974500
+    },
+    {
+      "epoch": 10.87,
+      "learning_rate": 1.023908548953311e-05,
+      "loss": 0.1799,
+      "step": 975000
+    },
+    {
+      "epoch": 10.87,
+      "eval_loss": 0.1708817481994629,
+      "eval_runtime": 2.5759,
+      "eval_samples_per_second": 891.738,
+      "eval_steps_per_second": 13.976,
+      "step": 975000
+    },
+    {
+      "epoch": 10.88,
+      "learning_rate": 1.0229622883855378e-05,
+      "loss": 0.1798,
+      "step": 975500
+    },
+    {
+      "epoch": 10.89,
+      "learning_rate": 1.02203510277245e-05,
+      "loss": 0.1796,
+      "step": 976000
+    },
+    {
+      "epoch": 10.89,
+      "eval_loss": 0.1709393560886383,
+      "eval_runtime": 2.6094,
+      "eval_samples_per_second": 880.296,
+      "eval_steps_per_second": 13.797,
+      "step": 976000
+    },
+    {
+      "epoch": 10.89,
+      "learning_rate": 1.021126994648939e-05,
+      "loss": 0.1801,
+      "step": 976500
+    },
+    {
+      "epoch": 10.9,
+      "learning_rate": 1.0202379664977364e-05,
+      "loss": 0.1799,
+      "step": 977000
+    },
+    {
+      "epoch": 10.9,
+      "eval_loss": 0.17174768447875977,
+      "eval_runtime": 2.6289,
+      "eval_samples_per_second": 873.739,
+      "eval_steps_per_second": 13.694,
+      "step": 977000
+    },
+    {
+      "epoch": 10.9,
+      "learning_rate": 1.019368020749412e-05,
+      "loss": 0.1797,
+      "step": 977500
+    },
+    {
+      "epoch": 10.91,
+      "learning_rate": 1.018517159782365e-05,
+      "loss": 0.1797,
+      "step": 978000
+    },
+    {
+      "epoch": 10.91,
+      "eval_loss": 0.16800174117088318,
+      "eval_runtime": 2.57,
+      "eval_samples_per_second": 893.767,
+      "eval_steps_per_second": 14.008,
+      "step": 978000
+    },
+    {
+      "epoch": 10.91,
+      "learning_rate": 1.0176853859228149e-05,
+      "loss": 0.1794,
+      "step": 978500
+    },
+    {
+      "epoch": 10.92,
+      "learning_rate": 1.0168727014448004e-05,
+      "loss": 0.1794,
+      "step": 979000
+    },
+    {
+      "epoch": 10.92,
+      "eval_loss": 0.16953879594802856,
+      "eval_runtime": 2.6173,
+      "eval_samples_per_second": 877.629,
+      "eval_steps_per_second": 13.755,
+      "step": 979000
+    },
+    {
+      "epoch": 10.92,
+      "learning_rate": 1.0160791085701714e-05,
+      "loss": 0.1798,
+      "step": 979500
+    },
+    {
+      "epoch": 10.93,
+      "learning_rate": 1.0153046094685783e-05,
+      "loss": 0.1794,
+      "step": 980000
+    },
+    {
+      "epoch": 10.93,
+      "eval_loss": 0.1709355264902115,
+      "eval_runtime": 2.587,
+      "eval_samples_per_second": 887.915,
+      "eval_steps_per_second": 13.916,
+      "step": 980000
     }
   ],
   "max_steps": 1000000,
   "num_train_epochs": 12,
+  "total_flos": 6.869770816498864e+22,
   "trial_name": null,
   "trial_params": null
 }

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4a6ae323073c615770ba7c18bfa53b7b7169d86c9cda5252cdcc294ff053a147
 size 3311

 version https://git-lfs.github.com/spec/v1
+oid sha256:5a854cf81d57a7e4747d79eeee0e792b9b0db2dfcccddbeaecfbfa4a0ff53eef
 size 3311

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ebc5b0eb8c3bb3dd69db934b29e5beccddfae1a796cf948830a8b05766d44497
 size 449471589

 version https://git-lfs.github.com/spec/v1
+oid sha256:081e5eabe8ef9a2817820443cfba02d1a6ecee053832fff6fbfbe29c77150986
 size 449471589

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4a6ae323073c615770ba7c18bfa53b7b7169d86c9cda5252cdcc294ff053a147
 size 3311

 version https://git-lfs.github.com/spec/v1
+oid sha256:5a854cf81d57a7e4747d79eeee0e792b9b0db2dfcccddbeaecfbfa4a0ff53eef
 size 3311