End of training

Browse files

Files changed (7) hide show

README.md +28 -7
all_results.json +20 -20
eval_results.json +8 -8
predict_results.json +8 -8
predictions.txt +0 -0
train_results.json +4 -4
trainer_state.json +213 -213

README.md CHANGED Viewed

@@ -4,6 +4,8 @@ license: mit
 base_model: EleutherAI/gpt-neo-1.3B
 tags:
 - generated_from_trainer
 metrics:
 - precision
 - recall
@@ -11,7 +13,26 @@ metrics:
 - accuracy
 model-index:
 - name: gpt-medmentions
-  results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -19,13 +40,13 @@ should probably proofread and complete it, then remove this comment. -->
 # gpt-medmentions
-This model is a fine-tuned version of [EleutherAI/gpt-neo-1.3B](https://huggingface.co/EleutherAI/gpt-neo-1.3B) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.0903
-- Precision: 0.4758
-- Recall: 0.5181
-- F1: 0.4960
-- Accuracy: 0.8518
 ## Model description

 base_model: EleutherAI/gpt-neo-1.3B
 tags:
 - generated_from_trainer
+datasets:
+- Ben10x/MedMentions-MTI881-NER
 metrics:
 - precision
 - recall
 - accuracy
 model-index:
 - name: gpt-medmentions
+  results:
+  - task:
+      name: Token Classification
+      type: token-classification
+    dataset:
+      name: Ben10x/MedMentions-MTI881-NER
+      type: Ben10x/MedMentions-MTI881-NER
+    metrics:
+    - name: Precision
+      type: precision
+      value: 0.4453316069630269
+    - name: Recall
+      type: recall
+      value: 0.5247499576199356
+    - name: F1
+      type: f1
+      value: 0.48178988326848243
+    - name: Accuracy
+      type: accuracy
+      value: 0.8454107464662687
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # gpt-medmentions
+This model is a fine-tuned version of [EleutherAI/gpt-neo-1.3B](https://huggingface.co/EleutherAI/gpt-neo-1.3B) on the Ben10x/MedMentions-MTI881-NER dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.5111
+- Precision: 0.4453
+- Recall: 0.5247
+- F1: 0.4818
+- Accuracy: 0.8454
 ## Model description

all_results.json CHANGED Viewed

@@ -1,26 +1,26 @@
 {
     "epoch": 5.0,
-    "eval_accuracy": 0.8431182650696939,
-    "eval_f1": 0.48405930705999844,
-    "eval_loss": 0.5186361074447632,
-    "eval_precision": 0.44261028378758077,
-    "eval_recall": 0.5340735717918291,
-    "eval_runtime": 20.2401,
     "eval_samples": 2924,
-    "eval_samples_per_second": 144.466,
-    "eval_steps_per_second": 18.083,
-    "predict_accuracy": 0.84832,
-    "predict_f1": 0.49048134963627926,
-    "predict_loss": 0.5068721771240234,
-    "predict_precision": 0.45042996233387816,
-    "predict_recall": 0.5383504629236389,
-    "predict_runtime": 19.7633,
-    "predict_samples_per_second": 148.052,
-    "predict_steps_per_second": 18.519,
     "total_flos": 5.182622875540416e+16,
-    "train_loss": 0.25193174704527244,
-    "train_runtime": 8708.7353,
     "train_samples": 23399,
-    "train_samples_per_second": 13.434,
-    "train_steps_per_second": 3.359
 }

 {
     "epoch": 5.0,
+    "eval_accuracy": 0.8454107464662687,
+    "eval_f1": 0.48178988326848243,
+    "eval_loss": 0.5111122131347656,
+    "eval_precision": 0.4453316069630269,
+    "eval_recall": 0.5247499576199356,
+    "eval_runtime": 20.2472,
     "eval_samples": 2924,
+    "eval_samples_per_second": 144.415,
+    "eval_steps_per_second": 18.077,
+    "predict_accuracy": 0.8501538461538461,
+    "predict_f1": 0.48921537980618945,
+    "predict_loss": 0.5000657439231873,
+    "predict_precision": 0.4529994934510457,
+    "predict_recall": 0.5317251337806846,
+    "predict_runtime": 19.8324,
+    "predict_samples_per_second": 147.537,
+    "predict_steps_per_second": 18.455,
     "total_flos": 5.182622875540416e+16,
+    "train_loss": 0.2549698821499816,
+    "train_runtime": 7489.8753,
     "train_samples": 23399,
+    "train_samples_per_second": 15.62,
+    "train_steps_per_second": 3.905
 }

eval_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
     "epoch": 5.0,
-    "eval_accuracy": 0.8431182650696939,
-    "eval_f1": 0.48405930705999844,
-    "eval_loss": 0.5186361074447632,
-    "eval_precision": 0.44261028378758077,
-    "eval_recall": 0.5340735717918291,
-    "eval_runtime": 20.2401,
     "eval_samples": 2924,
-    "eval_samples_per_second": 144.466,
-    "eval_steps_per_second": 18.083
 }

 {
     "epoch": 5.0,
+    "eval_accuracy": 0.8454107464662687,
+    "eval_f1": 0.48178988326848243,
+    "eval_loss": 0.5111122131347656,
+    "eval_precision": 0.4453316069630269,
+    "eval_recall": 0.5247499576199356,
+    "eval_runtime": 20.2472,
     "eval_samples": 2924,
+    "eval_samples_per_second": 144.415,
+    "eval_steps_per_second": 18.077
 }

predict_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-    "predict_accuracy": 0.84832,
-    "predict_f1": 0.49048134963627926,
-    "predict_loss": 0.5068721771240234,
-    "predict_precision": 0.45042996233387816,
-    "predict_recall": 0.5383504629236389,
-    "predict_runtime": 19.7633,
-    "predict_samples_per_second": 148.052,
-    "predict_steps_per_second": 18.519
 }

 {
+    "predict_accuracy": 0.8501538461538461,
+    "predict_f1": 0.48921537980618945,
+    "predict_loss": 0.5000657439231873,
+    "predict_precision": 0.4529994934510457,
+    "predict_recall": 0.5317251337806846,
+    "predict_runtime": 19.8324,
+    "predict_samples_per_second": 147.537,
+    "predict_steps_per_second": 18.455
 }

predictions.txt CHANGED Viewed

The diff for this file is too large to render. See raw diff

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 5.0,
     "total_flos": 5.182622875540416e+16,
-    "train_loss": 0.25193174704527244,
-    "train_runtime": 8708.7353,
     "train_samples": 23399,
-    "train_samples_per_second": 13.434,
-    "train_steps_per_second": 3.359
 }

 {
     "epoch": 5.0,
     "total_flos": 5.182622875540416e+16,
+    "train_loss": 0.2549698821499816,
+    "train_runtime": 7489.8753,
     "train_samples": 23399,
+    "train_samples_per_second": 15.62,
+    "train_steps_per_second": 3.905
 }

trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "best_global_step": 11700,
-  "best_metric": 0.5186361074447632,
   "best_model_checkpoint": "./output/gpt-medmentions/checkpoint-11700",
   "epoch": 5.0,
   "eval_steps": 500,
@@ -11,478 +11,478 @@
   "log_history": [
     {
       "epoch": 0.08547008547008547,
-      "grad_norm": 8.512005805969238,
       "learning_rate": 4.9153846153846157e-05,
-      "loss": 0.9503,
       "step": 500
     },
     {
       "epoch": 0.17094017094017094,
-      "grad_norm": 3.139110803604126,
       "learning_rate": 4.829914529914531e-05,
-      "loss": 0.6673,
       "step": 1000
     },
     {
       "epoch": 0.2564102564102564,
-      "grad_norm": 4.947507381439209,
       "learning_rate": 4.7444444444444445e-05,
-      "loss": 0.6468,
       "step": 1500
     },
     {
       "epoch": 0.3418803418803419,
-      "grad_norm": 5.252842426300049,
       "learning_rate": 4.658974358974359e-05,
-      "loss": 0.6059,
       "step": 2000
     },
     {
       "epoch": 0.42735042735042733,
-      "grad_norm": 2.6649463176727295,
-      "learning_rate": 4.5736752136752135e-05,
-      "loss": 0.5897,
       "step": 2500
     },
     {
       "epoch": 0.5128205128205128,
-      "grad_norm": 4.974217414855957,
-      "learning_rate": 4.4882051282051286e-05,
-      "loss": 0.5861,
       "step": 3000
     },
     {
       "epoch": 0.5982905982905983,
-      "grad_norm": 3.8443071842193604,
-      "learning_rate": 4.402735042735043e-05,
-      "loss": 0.5629,
       "step": 3500
     },
     {
       "epoch": 0.6837606837606838,
-      "grad_norm": 5.033857345581055,
-      "learning_rate": 4.3172649572649575e-05,
-      "loss": 0.5581,
       "step": 4000
     },
     {
       "epoch": 0.7692307692307693,
-      "grad_norm": 4.114415168762207,
-      "learning_rate": 4.231794871794872e-05,
-      "loss": 0.5432,
       "step": 4500
     },
     {
       "epoch": 0.8547008547008547,
-      "grad_norm": 5.629084587097168,
-      "learning_rate": 4.146324786324787e-05,
-      "loss": 0.5461,
       "step": 5000
     },
     {
       "epoch": 0.9401709401709402,
-      "grad_norm": 5.255064010620117,
-      "learning_rate": 4.060854700854701e-05,
-      "loss": 0.5309,
       "step": 5500
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.8329798580377831,
-      "eval_f1": 0.4380611839491458,
-      "eval_loss": 0.5357780456542969,
-      "eval_precision": 0.41227938976966794,
-      "eval_recall": 0.4672825902695372,
-      "eval_runtime": 35.3911,
-      "eval_samples_per_second": 82.62,
-      "eval_steps_per_second": 10.342,
       "step": 5850
     },
     {
       "epoch": 1.0256410256410255,
-      "grad_norm": 2.4081554412841797,
-      "learning_rate": 3.975384615384616e-05,
-      "loss": 0.4705,
       "step": 6000
     },
     {
       "epoch": 1.1111111111111112,
-      "grad_norm": 2.1898910999298096,
-      "learning_rate": 3.88991452991453e-05,
-      "loss": 0.3737,
       "step": 6500
     },
     {
       "epoch": 1.1965811965811965,
-      "grad_norm": 2.9521656036376953,
-      "learning_rate": 3.804444444444445e-05,
-      "loss": 0.3675,
       "step": 7000
     },
     {
       "epoch": 1.282051282051282,
-      "grad_norm": 4.8203840255737305,
-      "learning_rate": 3.719145299145299e-05,
-      "loss": 0.3916,
       "step": 7500
     },
     {
       "epoch": 1.3675213675213675,
-      "grad_norm": 2.337897777557373,
-      "learning_rate": 3.633675213675214e-05,
-      "loss": 0.3648,
       "step": 8000
     },
     {
       "epoch": 1.452991452991453,
-      "grad_norm": 4.426022529602051,
-      "learning_rate": 3.548205128205128e-05,
-      "loss": 0.3719,
       "step": 8500
     },
     {
       "epoch": 1.5384615384615383,
-      "grad_norm": 2.349121570587158,
-      "learning_rate": 3.462735042735043e-05,
-      "loss": 0.3633,
       "step": 9000
     },
     {
       "epoch": 1.623931623931624,
-      "grad_norm": 3.221034526824951,
-      "learning_rate": 3.377264957264957e-05,
-      "loss": 0.3642,
       "step": 9500
     },
     {
       "epoch": 1.7094017094017095,
-      "grad_norm": 4.463802337646484,
-      "learning_rate": 3.291794871794872e-05,
-      "loss": 0.3742,
       "step": 10000
     },
     {
       "epoch": 1.7948717948717947,
-      "grad_norm": 2.482924222946167,
-      "learning_rate": 3.2063247863247865e-05,
-      "loss": 0.3496,
       "step": 10500
     },
     {
       "epoch": 1.8803418803418803,
-      "grad_norm": 3.6561119556427,
-      "learning_rate": 3.120854700854701e-05,
-      "loss": 0.3638,
       "step": 11000
     },
     {
       "epoch": 1.965811965811966,
-      "grad_norm": 5.051749229431152,
-      "learning_rate": 3.035555555555556e-05,
-      "loss": 0.3521,
       "step": 11500
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.8431182650696939,
-      "eval_f1": 0.48405930705999844,
-      "eval_loss": 0.5186361074447632,
-      "eval_precision": 0.44261028378758077,
-      "eval_recall": 0.5340735717918291,
-      "eval_runtime": 20.534,
-      "eval_samples_per_second": 142.398,
-      "eval_steps_per_second": 17.824,
       "step": 11700
     },
     {
       "epoch": 2.051282051282051,
-      "grad_norm": 2.8310258388519287,
-      "learning_rate": 2.9500854700854703e-05,
-      "loss": 0.2492,
       "step": 12000
     },
     {
       "epoch": 2.1367521367521367,
-      "grad_norm": 4.582665920257568,
-      "learning_rate": 2.8646153846153844e-05,
-      "loss": 0.1745,
       "step": 12500
     },
     {
       "epoch": 2.2222222222222223,
-      "grad_norm": 3.4961071014404297,
-      "learning_rate": 2.779145299145299e-05,
-      "loss": 0.1652,
       "step": 13000
     },
     {
       "epoch": 2.3076923076923075,
-      "grad_norm": 3.6112935543060303,
-      "learning_rate": 2.6936752136752136e-05,
-      "loss": 0.1778,
       "step": 13500
     },
     {
       "epoch": 2.393162393162393,
-      "grad_norm": 3.437180280685425,
-      "learning_rate": 2.6082051282051283e-05,
-      "loss": 0.1736,
       "step": 14000
     },
     {
       "epoch": 2.4786324786324787,
-      "grad_norm": 4.227977275848389,
-      "learning_rate": 2.5227350427350428e-05,
-      "loss": 0.1761,
       "step": 14500
     },
     {
       "epoch": 2.564102564102564,
-      "grad_norm": 4.455820083618164,
-      "learning_rate": 2.4372649572649575e-05,
-      "loss": 0.1669,
       "step": 15000
     },
     {
       "epoch": 2.6495726495726495,
-      "grad_norm": 1.813612461090088,
-      "learning_rate": 2.3519658119658118e-05,
-      "loss": 0.1684,
       "step": 15500
     },
     {
       "epoch": 2.735042735042735,
-      "grad_norm": 3.37239146232605,
       "learning_rate": 2.2666666666666668e-05,
-      "loss": 0.1814,
       "step": 16000
     },
     {
       "epoch": 2.8205128205128203,
-      "grad_norm": 3.2784674167633057,
       "learning_rate": 2.1811965811965812e-05,
-      "loss": 0.1666,
       "step": 16500
     },
     {
       "epoch": 2.905982905982906,
-      "grad_norm": 1.3887425661087036,
-      "learning_rate": 2.0957264957264956e-05,
-      "loss": 0.1607,
       "step": 17000
     },
     {
       "epoch": 2.9914529914529915,
-      "grad_norm": 1.3888640403747559,
-      "learning_rate": 2.0102564102564104e-05,
-      "loss": 0.1695,
       "step": 17500
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.8485245982027927,
-      "eval_f1": 0.476198409062513,
-      "eval_loss": 0.6351242661476135,
-      "eval_precision": 0.46810775403258825,
-      "eval_recall": 0.48457365655195794,
-      "eval_runtime": 20.5093,
-      "eval_samples_per_second": 142.569,
-      "eval_steps_per_second": 17.846,
       "step": 17550
     },
     {
       "epoch": 3.076923076923077,
-      "grad_norm": 3.210146427154541,
-      "learning_rate": 1.9247863247863248e-05,
-      "loss": 0.0761,
       "step": 18000
     },
     {
       "epoch": 3.1623931623931623,
-      "grad_norm": 1.787926197052002,
-      "learning_rate": 1.8393162393162395e-05,
-      "loss": 0.0751,
       "step": 18500
     },
     {
       "epoch": 3.247863247863248,
-      "grad_norm": 5.146090984344482,
-      "learning_rate": 1.753846153846154e-05,
-      "loss": 0.072,
       "step": 19000
     },
     {
       "epoch": 3.3333333333333335,
-      "grad_norm": 1.8365877866744995,
-      "learning_rate": 1.6683760683760684e-05,
-      "loss": 0.0766,
       "step": 19500
     },
     {
       "epoch": 3.4188034188034186,
-      "grad_norm": 2.014242172241211,
-      "learning_rate": 1.582905982905983e-05,
-      "loss": 0.0732,
       "step": 20000
     },
     {
       "epoch": 3.5042735042735043,
-      "grad_norm": 1.4598703384399414,
-      "learning_rate": 1.4974358974358976e-05,
-      "loss": 0.074,
       "step": 20500
     },
     {
       "epoch": 3.58974358974359,
-      "grad_norm": 3.3222851753234863,
-      "learning_rate": 1.4119658119658118e-05,
-      "loss": 0.075,
       "step": 21000
     },
     {
       "epoch": 3.6752136752136755,
-      "grad_norm": 1.5937930345535278,
-      "learning_rate": 1.3266666666666666e-05,
-      "loss": 0.0747,
       "step": 21500
     },
     {
       "epoch": 3.7606837606837606,
-      "grad_norm": 0.7858961224555969,
-      "learning_rate": 1.2411965811965814e-05,
-      "loss": 0.07,
       "step": 22000
     },
     {
       "epoch": 3.8461538461538463,
-      "grad_norm": 2.8545825481414795,
-      "learning_rate": 1.1557264957264958e-05,
-      "loss": 0.0695,
       "step": 22500
     },
     {
       "epoch": 3.931623931623932,
-      "grad_norm": 3.5758216381073,
-      "learning_rate": 1.0702564102564102e-05,
-      "loss": 0.0711,
       "step": 23000
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.8497750426009244,
-      "eval_f1": 0.49261043851479935,
-      "eval_loss": 0.9213722944259644,
-      "eval_precision": 0.4715869447243972,
-      "eval_recall": 0.5155958637057129,
-      "eval_runtime": 20.5388,
-      "eval_samples_per_second": 142.365,
-      "eval_steps_per_second": 17.82,
       "step": 23400
     },
     {
       "epoch": 4.017094017094017,
-      "grad_norm": 0.3363385498523712,
-      "learning_rate": 9.847863247863248e-06,
-      "loss": 0.0658,
       "step": 23500
     },
     {
       "epoch": 4.102564102564102,
-      "grad_norm": 0.3475494980812073,
-      "learning_rate": 8.993162393162394e-06,
-      "loss": 0.0363,
       "step": 24000
     },
     {
       "epoch": 4.188034188034188,
-      "grad_norm": 0.8006152510643005,
-      "learning_rate": 8.13846153846154e-06,
-      "loss": 0.0392,
       "step": 24500
     },
     {
       "epoch": 4.273504273504273,
-      "grad_norm": 1.5949403047561646,
-      "learning_rate": 7.283760683760685e-06,
-      "loss": 0.0388,
       "step": 25000
     },
     {
       "epoch": 4.358974358974359,
-      "grad_norm": 0.0918673723936081,
-      "learning_rate": 6.429059829059829e-06,
-      "loss": 0.0418,
       "step": 25500
     },
     {
       "epoch": 4.444444444444445,
-      "grad_norm": 2.251410961151123,
-      "learning_rate": 5.576068376068376e-06,
-      "loss": 0.0388,
       "step": 26000
     },
     {
       "epoch": 4.52991452991453,
-      "grad_norm": 1.2202078104019165,
-      "learning_rate": 4.721367521367521e-06,
-      "loss": 0.0399,
       "step": 26500
     },
     {
       "epoch": 4.615384615384615,
-      "grad_norm": 0.54653000831604,
-      "learning_rate": 3.866666666666667e-06,
-      "loss": 0.0374,
       "step": 27000
     },
     {
       "epoch": 4.700854700854701,
-      "grad_norm": 0.7960435152053833,
-      "learning_rate": 3.013675213675214e-06,
-      "loss": 0.0389,
       "step": 27500
     },
     {
       "epoch": 4.786324786324786,
-      "grad_norm": 0.8028801679611206,
-      "learning_rate": 2.158974358974359e-06,
-      "loss": 0.0367,
       "step": 28000
     },
     {
       "epoch": 4.871794871794872,
-      "grad_norm": 0.4618303179740906,
-      "learning_rate": 1.3042735042735044e-06,
-      "loss": 0.0368,
       "step": 28500
     },
     {
       "epoch": 4.957264957264957,
-      "grad_norm": 0.23023363947868347,
-      "learning_rate": 4.495726495726496e-07,
-      "loss": 0.0384,
       "step": 29000
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.8505718944232632,
-      "eval_f1": 0.4937960213172776,
-      "eval_loss": 1.1010900735855103,
-      "eval_precision": 0.47477118047406713,
-      "eval_recall": 0.5144092219020173,
-      "eval_runtime": 20.7237,
-      "eval_samples_per_second": 141.094,
-      "eval_steps_per_second": 17.661,
       "step": 29250
     },
     {
       "epoch": 5.0,
       "step": 29250,
       "total_flos": 5.182622875540416e+16,
-      "train_loss": 0.25193174704527244,
-      "train_runtime": 8708.7353,
-      "train_samples_per_second": 13.434,
-      "train_steps_per_second": 3.359
     }
   ],
   "logging_steps": 500,

 {
   "best_global_step": 11700,
+  "best_metric": 0.5111122131347656,
   "best_model_checkpoint": "./output/gpt-medmentions/checkpoint-11700",
   "epoch": 5.0,
   "eval_steps": 500,
   "log_history": [
     {
       "epoch": 0.08547008547008547,
+      "grad_norm": 7.1186957359313965,
       "learning_rate": 4.9153846153846157e-05,
+      "loss": 0.9374,
       "step": 500
     },
     {
       "epoch": 0.17094017094017094,
+      "grad_norm": 2.6842756271362305,
       "learning_rate": 4.829914529914531e-05,
+      "loss": 0.6708,
       "step": 1000
     },
     {
       "epoch": 0.2564102564102564,
+      "grad_norm": 4.874898433685303,
       "learning_rate": 4.7444444444444445e-05,
+      "loss": 0.6453,
       "step": 1500
     },
     {
       "epoch": 0.3418803418803419,
+      "grad_norm": 5.255520820617676,
       "learning_rate": 4.658974358974359e-05,
+      "loss": 0.6121,
       "step": 2000
     },
     {
       "epoch": 0.42735042735042733,
+      "grad_norm": 2.5840187072753906,
+      "learning_rate": 4.573504273504274e-05,
+      "loss": 0.5936,
       "step": 2500
     },
     {
       "epoch": 0.5128205128205128,
+      "grad_norm": 5.246805667877197,
+      "learning_rate": 4.488547008547009e-05,
+      "loss": 0.5943,
       "step": 3000
     },
     {
       "epoch": 0.5982905982905983,
+      "grad_norm": 3.491377592086792,
+      "learning_rate": 4.4032478632478637e-05,
+      "loss": 0.5663,
       "step": 3500
     },
     {
       "epoch": 0.6837606837606838,
+      "grad_norm": 4.0636210441589355,
+      "learning_rate": 4.317777777777778e-05,
+      "loss": 0.5611,
       "step": 4000
     },
     {
       "epoch": 0.7692307692307693,
+      "grad_norm": 4.316960334777832,
+      "learning_rate": 4.2323076923076925e-05,
+      "loss": 0.5449,
       "step": 4500
     },
     {
       "epoch": 0.8547008547008547,
+      "grad_norm": 4.260451316833496,
+      "learning_rate": 4.146837606837607e-05,
+      "loss": 0.5481,
       "step": 5000
     },
     {
       "epoch": 0.9401709401709402,
+      "grad_norm": 5.917566299438477,
+      "learning_rate": 4.061367521367522e-05,
+      "loss": 0.5307,
       "step": 5500
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.8341444876242783,
+      "eval_f1": 0.44006334125098967,
+      "eval_loss": 0.5368949770927429,
+      "eval_precision": 0.41286584459961373,
+      "eval_recall": 0.47109679606713,
+      "eval_runtime": 20.612,
+      "eval_samples_per_second": 141.859,
+      "eval_steps_per_second": 17.757,
       "step": 5850
     },
     {
       "epoch": 1.0256410256410255,
+      "grad_norm": 3.265369415283203,
+      "learning_rate": 3.975897435897436e-05,
+      "loss": 0.4748,
       "step": 6000
     },
     {
       "epoch": 1.1111111111111112,
+      "grad_norm": 3.2452337741851807,
+      "learning_rate": 3.890427350427351e-05,
+      "loss": 0.3767,
       "step": 6500
     },
     {
       "epoch": 1.1965811965811965,
+      "grad_norm": 2.8009512424468994,
+      "learning_rate": 3.804957264957265e-05,
+      "loss": 0.3761,
       "step": 7000
     },
     {
       "epoch": 1.282051282051282,
+      "grad_norm": 5.858109951019287,
+      "learning_rate": 3.71948717948718e-05,
+      "loss": 0.3922,
       "step": 7500
     },
     {
       "epoch": 1.3675213675213675,
+      "grad_norm": 1.7275584936141968,
+      "learning_rate": 3.634017094017094e-05,
+      "loss": 0.3677,
       "step": 8000
     },
     {
       "epoch": 1.452991452991453,
+      "grad_norm": 4.6104044914245605,
+      "learning_rate": 3.5485470085470085e-05,
+      "loss": 0.3746,
       "step": 8500
     },
     {
       "epoch": 1.5384615384615383,
+      "grad_norm": 2.6036839485168457,
+      "learning_rate": 3.4630769230769236e-05,
+      "loss": 0.3661,
       "step": 9000
     },
     {
       "epoch": 1.623931623931624,
+      "grad_norm": 2.7406065464019775,
+      "learning_rate": 3.3776068376068374e-05,
+      "loss": 0.3712,
       "step": 9500
     },
     {
       "epoch": 1.7094017094017095,
+      "grad_norm": 5.254650115966797,
+      "learning_rate": 3.2921367521367525e-05,
+      "loss": 0.3774,
       "step": 10000
     },
     {
       "epoch": 1.7948717948717947,
+      "grad_norm": 2.274414539337158,
+      "learning_rate": 3.206666666666667e-05,
+      "loss": 0.3541,
       "step": 10500
     },
     {
       "epoch": 1.8803418803418803,
+      "grad_norm": 3.5981504917144775,
+      "learning_rate": 3.121196581196581e-05,
+      "loss": 0.3694,
       "step": 11000
     },
     {
       "epoch": 1.965811965811966,
+      "grad_norm": 3.6442151069641113,
+      "learning_rate": 3.0357264957264958e-05,
+      "loss": 0.3585,
       "step": 11500
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.8454107464662687,
+      "eval_f1": 0.48178988326848243,
+      "eval_loss": 0.5111122131347656,
+      "eval_precision": 0.4453316069630269,
+      "eval_recall": 0.5247499576199356,
+      "eval_runtime": 20.6467,
+      "eval_samples_per_second": 141.621,
+      "eval_steps_per_second": 17.727,
       "step": 11700
     },
     {
       "epoch": 2.051282051282051,
+      "grad_norm": 3.4292666912078857,
+      "learning_rate": 2.9502564102564105e-05,
+      "loss": 0.2559,
       "step": 12000
     },
     {
       "epoch": 2.1367521367521367,
+      "grad_norm": 6.138054370880127,
+      "learning_rate": 2.864786324786325e-05,
+      "loss": 0.1817,
       "step": 12500
     },
     {
       "epoch": 2.2222222222222223,
+      "grad_norm": 3.659104347229004,
+      "learning_rate": 2.7793162393162394e-05,
+      "loss": 0.1759,
       "step": 13000
     },
     {
       "epoch": 2.3076923076923075,
+      "grad_norm": 5.470319747924805,
+      "learning_rate": 2.693846153846154e-05,
+      "loss": 0.184,
       "step": 13500
     },
     {
       "epoch": 2.393162393162393,
+      "grad_norm": 2.9865291118621826,
+      "learning_rate": 2.6083760683760682e-05,
+      "loss": 0.1761,
       "step": 14000
     },
     {
       "epoch": 2.4786324786324787,
+      "grad_norm": 6.152403831481934,
+      "learning_rate": 2.522905982905983e-05,
+      "loss": 0.1798,
       "step": 14500
     },
     {
       "epoch": 2.564102564102564,
+      "grad_norm": 4.3192338943481445,
+      "learning_rate": 2.4374358974358977e-05,
+      "loss": 0.1757,
       "step": 15000
     },
     {
       "epoch": 2.6495726495726495,
+      "grad_norm": 3.217804193496704,
+      "learning_rate": 2.3521367521367523e-05,
+      "loss": 0.1738,
       "step": 15500
     },
     {
       "epoch": 2.735042735042735,
+      "grad_norm": 3.670557737350464,
       "learning_rate": 2.2666666666666668e-05,
+      "loss": 0.1861,
       "step": 16000
     },
     {
       "epoch": 2.8205128205128203,
+      "grad_norm": 2.3006069660186768,
       "learning_rate": 2.1811965811965812e-05,
+      "loss": 0.1705,
       "step": 16500
     },
     {
       "epoch": 2.905982905982906,
+      "grad_norm": 1.9008346796035767,
+      "learning_rate": 2.0958974358974358e-05,
+      "loss": 0.1672,
       "step": 17000
     },
     {
       "epoch": 2.9914529914529915,
+      "grad_norm": 1.8553671836853027,
+      "learning_rate": 2.0104273504273506e-05,
+      "loss": 0.1758,
       "step": 17500
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.8497137463068983,
+      "eval_f1": 0.48074844074844075,
+      "eval_loss": 0.6349462270736694,
+      "eval_precision": 0.4718413320274241,
+      "eval_recall": 0.4899983047974233,
+      "eval_runtime": 20.6084,
+      "eval_samples_per_second": 141.884,
+      "eval_steps_per_second": 17.76,
       "step": 17550
     },
     {
       "epoch": 3.076923076923077,
+      "grad_norm": 1.145456314086914,
+      "learning_rate": 1.924957264957265e-05,
+      "loss": 0.0777,
       "step": 18000
     },
     {
       "epoch": 3.1623931623931623,
+      "grad_norm": 2.4131710529327393,
+      "learning_rate": 1.8394871794871797e-05,
+      "loss": 0.0769,
       "step": 18500
     },
     {
       "epoch": 3.247863247863248,
+      "grad_norm": 2.5216588973999023,
+      "learning_rate": 1.754017094017094e-05,
+      "loss": 0.0779,
       "step": 19000
     },
     {
       "epoch": 3.3333333333333335,
+      "grad_norm": 2.811354160308838,
+      "learning_rate": 1.6685470085470086e-05,
+      "loss": 0.0804,
       "step": 19500
     },
     {
       "epoch": 3.4188034188034186,
+      "grad_norm": 0.5833438634872437,
+      "learning_rate": 1.5830769230769233e-05,
+      "loss": 0.0772,
       "step": 20000
     },
     {
       "epoch": 3.5042735042735043,
+      "grad_norm": 3.458584785461426,
+      "learning_rate": 1.4976068376068378e-05,
+      "loss": 0.0751,
       "step": 20500
     },
     {
       "epoch": 3.58974358974359,
+      "grad_norm": 0.8929054141044617,
+      "learning_rate": 1.4121367521367524e-05,
+      "loss": 0.0761,
       "step": 21000
     },
     {
       "epoch": 3.6752136752136755,
+      "grad_norm": 5.908766269683838,
+      "learning_rate": 1.3268376068376068e-05,
+      "loss": 0.0736,
       "step": 21500
     },
     {
       "epoch": 3.7606837606837606,
+      "grad_norm": 1.0228583812713623,
+      "learning_rate": 1.2413675213675214e-05,
+      "loss": 0.0716,
       "step": 22000
     },
     {
       "epoch": 3.8461538461538463,
+      "grad_norm": 0.626966118812561,
+      "learning_rate": 1.1560683760683762e-05,
+      "loss": 0.0718,
       "step": 22500
     },
     {
       "epoch": 3.931623931623932,
+      "grad_norm": 1.9417258501052856,
+      "learning_rate": 1.0705982905982906e-05,
+      "loss": 0.0751,
       "step": 23000
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.8496892277892879,
+      "eval_f1": 0.49008894029434047,
+      "eval_loss": 0.9264360070228577,
+      "eval_precision": 0.46282485875706214,
+      "eval_recall": 0.5207662315646719,
+      "eval_runtime": 20.6775,
+      "eval_samples_per_second": 141.41,
+      "eval_steps_per_second": 17.7,
       "step": 23400
     },
     {
       "epoch": 4.017094017094017,
+      "grad_norm": 0.14389610290527344,
+      "learning_rate": 9.851282051282052e-06,
+      "loss": 0.0641,
       "step": 23500
     },
     {
       "epoch": 4.102564102564102,
+      "grad_norm": 0.6148084402084351,
+      "learning_rate": 8.996581196581196e-06,
+      "loss": 0.0352,
       "step": 24000
     },
     {
       "epoch": 4.188034188034188,
+      "grad_norm": 1.3859856128692627,
+      "learning_rate": 8.141880341880342e-06,
+      "loss": 0.0399,
       "step": 24500
     },
     {
       "epoch": 4.273504273504273,
+      "grad_norm": 1.6096197366714478,
+      "learning_rate": 7.287179487179488e-06,
+      "loss": 0.0385,
       "step": 25000
     },
     {
       "epoch": 4.358974358974359,
+      "grad_norm": 0.26734989881515503,
+      "learning_rate": 6.432478632478633e-06,
+      "loss": 0.0411,
       "step": 25500
     },
     {
       "epoch": 4.444444444444445,
+      "grad_norm": 1.3472919464111328,
+      "learning_rate": 5.577777777777778e-06,
+      "loss": 0.0395,
       "step": 26000
     },
     {
       "epoch": 4.52991452991453,
+      "grad_norm": 0.8369725942611694,
+      "learning_rate": 4.723076923076923e-06,
+      "loss": 0.0432,
       "step": 26500
     },
     {
       "epoch": 4.615384615384615,
+      "grad_norm": 0.7225199341773987,
+      "learning_rate": 3.87008547008547e-06,
+      "loss": 0.0412,
       "step": 27000
     },
     {
       "epoch": 4.700854700854701,
+      "grad_norm": 0.6592767834663391,
+      "learning_rate": 3.0153846153846154e-06,
+      "loss": 0.0407,
       "step": 27500
     },
     {
       "epoch": 4.786324786324786,
+      "grad_norm": 0.9876635670661926,
+      "learning_rate": 2.160683760683761e-06,
+      "loss": 0.0372,
       "step": 28000
     },
     {
       "epoch": 4.871794871794872,
+      "grad_norm": 0.7053186297416687,
+      "learning_rate": 1.3059829059829061e-06,
+      "loss": 0.0384,
       "step": 28500
     },
     {
       "epoch": 4.957264957264957,
+      "grad_norm": 0.24596278369426727,
+      "learning_rate": 4.52991452991453e-07,
+      "loss": 0.0387,
       "step": 29000
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.8518223388213949,
+      "eval_f1": 0.4960441433034446,
+      "eval_loss": 1.0903491973876953,
+      "eval_precision": 0.47575686823877344,
+      "eval_recall": 0.5181386675707748,
+      "eval_runtime": 20.8036,
+      "eval_samples_per_second": 140.552,
+      "eval_steps_per_second": 17.593,
       "step": 29250
     },
     {
       "epoch": 5.0,
       "step": 29250,
       "total_flos": 5.182622875540416e+16,
+      "train_loss": 0.2549698821499816,
+      "train_runtime": 7489.8753,
+      "train_samples_per_second": 15.62,
+      "train_steps_per_second": 3.905
     }
   ],
   "logging_steps": 500,