mbert_mar-deva / trainer_state.json

Uploading checkpoint-39000 for mbert - mar-deva

b8afc27 verified 9 months ago

33.9 kB

	{
	"best_metric": 0.7045323252677917,
	"best_model_checkpoint": "./model_fine-tune/glot/mbert/mar-Deva/checkpoint-39000",
	"epoch": 91.54929577464789,
	"eval_steps": 500,
	"global_step": 39000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 1.1737089201877935,
	"grad_norm": 3.1700332164764404,
	"learning_rate": 9.95e-05,
	"loss": 1.3483,
	"step": 500
	},
	{
	"epoch": 1.1737089201877935,
	"eval_accuracy": 0.749312885729062,
	"eval_loss": 1.1869930028915405,
	"eval_runtime": 145.5506,
	"eval_samples_per_second": 121.484,
	"eval_steps_per_second": 3.799,
	"step": 500
	},
	{
	"epoch": 2.347417840375587,
	"grad_norm": 2.450835704803467,
	"learning_rate": 9.900000000000001e-05,
	"loss": 1.16,
	"step": 1000
	},
	{
	"epoch": 2.347417840375587,
	"eval_accuracy": 0.7679429076763364,
	"eval_loss": 1.1002804040908813,
	"eval_runtime": 138.5842,
	"eval_samples_per_second": 127.59,
	"eval_steps_per_second": 3.99,
	"step": 1000
	},
	{
	"epoch": 3.52112676056338,
	"grad_norm": 2.5313944816589355,
	"learning_rate": 9.850000000000001e-05,
	"loss": 1.0796,
	"step": 1500
	},
	{
	"epoch": 3.52112676056338,
	"eval_accuracy": 0.7788953556992149,
	"eval_loss": 1.0443540811538696,
	"eval_runtime": 143.0988,
	"eval_samples_per_second": 123.565,
	"eval_steps_per_second": 3.864,
	"step": 1500
	},
	{
	"epoch": 4.694835680751174,
	"grad_norm": 2.6745097637176514,
	"learning_rate": 9.8e-05,
	"loss": 1.023,
	"step": 2000
	},
	{
	"epoch": 4.694835680751174,
	"eval_accuracy": 0.7875008678674885,
	"eval_loss": 0.9982088208198547,
	"eval_runtime": 147.3047,
	"eval_samples_per_second": 120.037,
	"eval_steps_per_second": 3.754,
	"step": 2000
	},
	{
	"epoch": 5.868544600938967,
	"grad_norm": 2.8676445484161377,
	"learning_rate": 9.75e-05,
	"loss": 0.9784,
	"step": 2500
	},
	{
	"epoch": 5.868544600938967,
	"eval_accuracy": 0.7940504772991072,
	"eval_loss": 0.964560329914093,
	"eval_runtime": 137.4737,
	"eval_samples_per_second": 128.621,
	"eval_steps_per_second": 4.023,
	"step": 2500
	},
	{
	"epoch": 7.042253521126761,
	"grad_norm": 2.3849828243255615,
	"learning_rate": 9.7e-05,
	"loss": 0.9394,
	"step": 3000
	},
	{
	"epoch": 7.042253521126761,
	"eval_accuracy": 0.7981764510868291,
	"eval_loss": 0.9444334506988525,
	"eval_runtime": 147.2364,
	"eval_samples_per_second": 120.093,
	"eval_steps_per_second": 3.756,
	"step": 3000
	},
	{
	"epoch": 8.215962441314554,
	"grad_norm": 2.1890273094177246,
	"learning_rate": 9.65e-05,
	"loss": 0.9119,
	"step": 3500
	},
	{
	"epoch": 8.215962441314554,
	"eval_accuracy": 0.8029835860860965,
	"eval_loss": 0.9215248823165894,
	"eval_runtime": 147.2738,
	"eval_samples_per_second": 120.062,
	"eval_steps_per_second": 3.755,
	"step": 3500
	},
	{
	"epoch": 9.389671361502348,
	"grad_norm": 2.342008590698242,
	"learning_rate": 9.6e-05,
	"loss": 0.8872,
	"step": 4000
	},
	{
	"epoch": 9.389671361502348,
	"eval_accuracy": 0.805941164259263,
	"eval_loss": 0.916360080242157,
	"eval_runtime": 147.2413,
	"eval_samples_per_second": 120.089,
	"eval_steps_per_second": 3.756,
	"step": 4000
	},
	{
	"epoch": 10.56338028169014,
	"grad_norm": 2.2766637802124023,
	"learning_rate": 9.55e-05,
	"loss": 0.8629,
	"step": 4500
	},
	{
	"epoch": 10.56338028169014,
	"eval_accuracy": 0.8102512145065337,
	"eval_loss": 0.898952066898346,
	"eval_runtime": 147.2077,
	"eval_samples_per_second": 120.116,
	"eval_steps_per_second": 3.757,
	"step": 4500
	},
	{
	"epoch": 11.737089201877934,
	"grad_norm": 2.391869306564331,
	"learning_rate": 9.5e-05,
	"loss": 0.8477,
	"step": 5000
	},
	{
	"epoch": 11.737089201877934,
	"eval_accuracy": 0.8117510986190105,
	"eval_loss": 0.8836262822151184,
	"eval_runtime": 145.6587,
	"eval_samples_per_second": 121.393,
	"eval_steps_per_second": 3.797,
	"step": 5000
	},
	{
	"epoch": 12.910798122065728,
	"grad_norm": 2.4697470664978027,
	"learning_rate": 9.449999999999999e-05,
	"loss": 0.8261,
	"step": 5500
	},
	{
	"epoch": 12.910798122065728,
	"eval_accuracy": 0.8150349185540299,
	"eval_loss": 0.8613038063049316,
	"eval_runtime": 145.7167,
	"eval_samples_per_second": 121.345,
	"eval_steps_per_second": 3.795,
	"step": 5500
	},
	{
	"epoch": 14.084507042253522,
	"grad_norm": 2.36245059967041,
	"learning_rate": 9.4e-05,
	"loss": 0.8072,
	"step": 6000
	},
	{
	"epoch": 14.084507042253522,
	"eval_accuracy": 0.816731876355394,
	"eval_loss": 0.8536739945411682,
	"eval_runtime": 147.07,
	"eval_samples_per_second": 120.228,
	"eval_steps_per_second": 3.76,
	"step": 6000
	},
	{
	"epoch": 15.258215962441314,
	"grad_norm": 2.285848379135132,
	"learning_rate": 9.350000000000001e-05,
	"loss": 0.7924,
	"step": 6500
	},
	{
	"epoch": 15.258215962441314,
	"eval_accuracy": 0.8197007489640474,
	"eval_loss": 0.8382024765014648,
	"eval_runtime": 147.1867,
	"eval_samples_per_second": 120.133,
	"eval_steps_per_second": 3.757,
	"step": 6500
	},
	{
	"epoch": 16.431924882629108,
	"grad_norm": 2.218266010284424,
	"learning_rate": 9.300000000000001e-05,
	"loss": 0.7815,
	"step": 7000
	},
	{
	"epoch": 16.431924882629108,
	"eval_accuracy": 0.8211554348763181,
	"eval_loss": 0.8357976675033569,
	"eval_runtime": 135.7542,
	"eval_samples_per_second": 130.25,
	"eval_steps_per_second": 4.074,
	"step": 7000
	},
	{
	"epoch": 17.6056338028169,
	"grad_norm": 2.300184488296509,
	"learning_rate": 9.250000000000001e-05,
	"loss": 0.767,
	"step": 7500
	},
	{
	"epoch": 17.6056338028169,
	"eval_accuracy": 0.8242465371712792,
	"eval_loss": 0.8331694006919861,
	"eval_runtime": 145.3933,
	"eval_samples_per_second": 121.615,
	"eval_steps_per_second": 3.803,
	"step": 7500
	},
	{
	"epoch": 18.779342723004696,
	"grad_norm": 2.1632742881774902,
	"learning_rate": 9.200000000000001e-05,
	"loss": 0.7541,
	"step": 8000
	},
	{
	"epoch": 18.779342723004696,
	"eval_accuracy": 0.8246549447936785,
	"eval_loss": 0.8179985880851746,
	"eval_runtime": 139.0754,
	"eval_samples_per_second": 127.14,
	"eval_steps_per_second": 3.976,
	"step": 8000
	},
	{
	"epoch": 19.953051643192488,
	"grad_norm": 2.2807085514068604,
	"learning_rate": 9.15e-05,
	"loss": 0.7462,
	"step": 8500
	},
	{
	"epoch": 19.953051643192488,
	"eval_accuracy": 0.8256249942473,
	"eval_loss": 0.8264754414558411,
	"eval_runtime": 147.2594,
	"eval_samples_per_second": 120.074,
	"eval_steps_per_second": 3.755,
	"step": 8500
	},
	{
	"epoch": 21.12676056338028,
	"grad_norm": 2.210843563079834,
	"learning_rate": 9.1e-05,
	"loss": 0.7323,
	"step": 9000
	},
	{
	"epoch": 21.12676056338028,
	"eval_accuracy": 0.8267119847302682,
	"eval_loss": 0.8105438947677612,
	"eval_runtime": 136.1823,
	"eval_samples_per_second": 129.841,
	"eval_steps_per_second": 4.061,
	"step": 9000
	},
	{
	"epoch": 22.300469483568076,
	"grad_norm": 2.389461040496826,
	"learning_rate": 9.05e-05,
	"loss": 0.7212,
	"step": 9500
	},
	{
	"epoch": 22.300469483568076,
	"eval_accuracy": 0.8280417403957945,
	"eval_loss": 0.8193202018737793,
	"eval_runtime": 147.4213,
	"eval_samples_per_second": 119.942,
	"eval_steps_per_second": 3.751,
	"step": 9500
	},
	{
	"epoch": 23.474178403755868,
	"grad_norm": 2.059155225753784,
	"learning_rate": 9e-05,
	"loss": 0.7086,
	"step": 10000
	},
	{
	"epoch": 23.474178403755868,
	"eval_accuracy": 0.8300135381668301,
	"eval_loss": 0.8017289638519287,
	"eval_runtime": 137.0188,
	"eval_samples_per_second": 129.048,
	"eval_steps_per_second": 4.036,
	"step": 10000
	},
	{
	"epoch": 24.647887323943664,
	"grad_norm": 2.143441677093506,
	"learning_rate": 8.950000000000001e-05,
	"loss": 0.7018,
	"step": 10500
	},
	{
	"epoch": 24.647887323943664,
	"eval_accuracy": 0.8309204998181491,
	"eval_loss": 0.7943059206008911,
	"eval_runtime": 136.1098,
	"eval_samples_per_second": 129.91,
	"eval_steps_per_second": 4.063,
	"step": 10500
	},
	{
	"epoch": 25.821596244131456,
	"grad_norm": 2.3048555850982666,
	"learning_rate": 8.900000000000001e-05,
	"loss": 0.6949,
	"step": 11000
	},
	{
	"epoch": 25.821596244131456,
	"eval_accuracy": 0.8313006683640194,
	"eval_loss": 0.7950281500816345,
	"eval_runtime": 147.4239,
	"eval_samples_per_second": 119.94,
	"eval_steps_per_second": 3.751,
	"step": 11000
	},
	{
	"epoch": 26.995305164319248,
	"grad_norm": 1.9936089515686035,
	"learning_rate": 8.850000000000001e-05,
	"loss": 0.6917,
	"step": 11500
	},
	{
	"epoch": 26.995305164319248,
	"eval_accuracy": 0.8331900538385245,
	"eval_loss": 0.7858129143714905,
	"eval_runtime": 137.4392,
	"eval_samples_per_second": 128.653,
	"eval_steps_per_second": 4.024,
	"step": 11500
	},
	{
	"epoch": 28.169014084507044,
	"grad_norm": 2.1459641456604004,
	"learning_rate": 8.800000000000001e-05,
	"loss": 0.6782,
	"step": 12000
	},
	{
	"epoch": 28.169014084507044,
	"eval_accuracy": 0.8343617601040733,
	"eval_loss": 0.7777819037437439,
	"eval_runtime": 147.5831,
	"eval_samples_per_second": 119.81,
	"eval_steps_per_second": 3.747,
	"step": 12000
	},
	{
	"epoch": 29.342723004694836,
	"grad_norm": 2.0599782466888428,
	"learning_rate": 8.75e-05,
	"loss": 0.672,
	"step": 12500
	},
	{
	"epoch": 29.342723004694836,
	"eval_accuracy": 0.8344647882838259,
	"eval_loss": 0.7832308411598206,
	"eval_runtime": 137.4669,
	"eval_samples_per_second": 128.627,
	"eval_steps_per_second": 4.023,
	"step": 12500
	},
	{
	"epoch": 30.516431924882628,
	"grad_norm": 2.52083158493042,
	"learning_rate": 8.7e-05,
	"loss": 0.6612,
	"step": 13000
	},
	{
	"epoch": 30.516431924882628,
	"eval_accuracy": 0.835733848691268,
	"eval_loss": 0.7805770039558411,
	"eval_runtime": 137.4676,
	"eval_samples_per_second": 128.627,
	"eval_steps_per_second": 4.023,
	"step": 13000
	},
	{
	"epoch": 31.690140845070424,
	"grad_norm": 2.808067560195923,
	"learning_rate": 8.65e-05,
	"loss": 0.653,
	"step": 13500
	},
	{
	"epoch": 31.690140845070424,
	"eval_accuracy": 0.8369936505384986,
	"eval_loss": 0.7829101085662842,
	"eval_runtime": 147.4085,
	"eval_samples_per_second": 119.952,
	"eval_steps_per_second": 3.751,
	"step": 13500
	},
	{
	"epoch": 32.863849765258216,
	"grad_norm": 2.1012039184570312,
	"learning_rate": 8.6e-05,
	"loss": 0.6509,
	"step": 14000
	},
	{
	"epoch": 32.863849765258216,
	"eval_accuracy": 0.8373059658134827,
	"eval_loss": 0.7640124559402466,
	"eval_runtime": 137.589,
	"eval_samples_per_second": 128.513,
	"eval_steps_per_second": 4.019,
	"step": 14000
	},
	{
	"epoch": 34.03755868544601,
	"grad_norm": 2.1211578845977783,
	"learning_rate": 8.55e-05,
	"loss": 0.6403,
	"step": 14500
	},
	{
	"epoch": 34.03755868544601,
	"eval_accuracy": 0.8385678802262423,
	"eval_loss": 0.7672787308692932,
	"eval_runtime": 146.9801,
	"eval_samples_per_second": 120.302,
	"eval_steps_per_second": 3.762,
	"step": 14500
	},
	{
	"epoch": 35.2112676056338,
	"grad_norm": 2.017094135284424,
	"learning_rate": 8.5e-05,
	"loss": 0.6348,
	"step": 15000
	},
	{
	"epoch": 35.2112676056338,
	"eval_accuracy": 0.8392093131517121,
	"eval_loss": 0.7593186497688293,
	"eval_runtime": 137.1351,
	"eval_samples_per_second": 128.939,
	"eval_steps_per_second": 4.033,
	"step": 15000
	},
	{
	"epoch": 36.3849765258216,
	"grad_norm": 2.0924570560455322,
	"learning_rate": 8.450000000000001e-05,
	"loss": 0.6297,
	"step": 15500
	},
	{
	"epoch": 36.3849765258216,
	"eval_accuracy": 0.8399583286650959,
	"eval_loss": 0.763680636882782,
	"eval_runtime": 147.5378,
	"eval_samples_per_second": 119.847,
	"eval_steps_per_second": 3.748,
	"step": 15500
	},
	{
	"epoch": 37.55868544600939,
	"grad_norm": 2.131864070892334,
	"learning_rate": 8.4e-05,
	"loss": 0.6238,
	"step": 16000
	},
	{
	"epoch": 37.55868544600939,
	"eval_accuracy": 0.840090867939712,
	"eval_loss": 0.7627538442611694,
	"eval_runtime": 137.0753,
	"eval_samples_per_second": 128.995,
	"eval_steps_per_second": 4.034,
	"step": 16000
	},
	{
	"epoch": 38.732394366197184,
	"grad_norm": 2.12919545173645,
	"learning_rate": 8.35e-05,
	"loss": 0.6162,
	"step": 16500
	},
	{
	"epoch": 38.732394366197184,
	"eval_accuracy": 0.8413376227933144,
	"eval_loss": 0.7513773441314697,
	"eval_runtime": 147.6687,
	"eval_samples_per_second": 119.741,
	"eval_steps_per_second": 3.745,
	"step": 16500
	},
	{
	"epoch": 39.906103286384976,
	"grad_norm": 2.1172847747802734,
	"learning_rate": 8.3e-05,
	"loss": 0.6121,
	"step": 17000
	},
	{
	"epoch": 39.906103286384976,
	"eval_accuracy": 0.8418376093750392,
	"eval_loss": 0.753982663154602,
	"eval_runtime": 136.0303,
	"eval_samples_per_second": 129.986,
	"eval_steps_per_second": 4.065,
	"step": 17000
	},
	{
	"epoch": 41.07981220657277,
	"grad_norm": 2.195590019226074,
	"learning_rate": 8.25e-05,
	"loss": 0.6078,
	"step": 17500
	},
	{
	"epoch": 41.07981220657277,
	"eval_accuracy": 0.8428805964270359,
	"eval_loss": 0.7542482614517212,
	"eval_runtime": 137.0472,
	"eval_samples_per_second": 129.021,
	"eval_steps_per_second": 4.035,
	"step": 17500
	},
	{
	"epoch": 42.25352112676056,
	"grad_norm": 2.067308187484741,
	"learning_rate": 8.2e-05,
	"loss": 0.601,
	"step": 18000
	},
	{
	"epoch": 42.25352112676056,
	"eval_accuracy": 0.8427417329846963,
	"eval_loss": 0.7472436428070068,
	"eval_runtime": 136.152,
	"eval_samples_per_second": 129.87,
	"eval_steps_per_second": 4.062,
	"step": 18000
	},
	{
	"epoch": 43.42723004694836,
	"grad_norm": 2.278040885925293,
	"learning_rate": 8.15e-05,
	"loss": 0.5962,
	"step": 18500
	},
	{
	"epoch": 43.42723004694836,
	"eval_accuracy": 0.8429750545039596,
	"eval_loss": 0.7438804507255554,
	"eval_runtime": 136.1815,
	"eval_samples_per_second": 129.841,
	"eval_steps_per_second": 4.061,
	"step": 18500
	},
	{
	"epoch": 44.60093896713615,
	"grad_norm": 2.0480079650878906,
	"learning_rate": 8.1e-05,
	"loss": 0.5921,
	"step": 19000
	},
	{
	"epoch": 44.60093896713615,
	"eval_accuracy": 0.8430666280582005,
	"eval_loss": 0.7555158734321594,
	"eval_runtime": 147.7547,
	"eval_samples_per_second": 119.671,
	"eval_steps_per_second": 3.743,
	"step": 19000
	},
	{
	"epoch": 45.774647887323944,
	"grad_norm": 2.0856966972351074,
	"learning_rate": 8.05e-05,
	"loss": 0.5828,
	"step": 19500
	},
	{
	"epoch": 45.774647887323944,
	"eval_accuracy": 0.8444825839615888,
	"eval_loss": 0.7403737902641296,
	"eval_runtime": 142.7228,
	"eval_samples_per_second": 123.89,
	"eval_steps_per_second": 3.875,
	"step": 19500
	},
	{
	"epoch": 46.948356807511736,
	"grad_norm": 2.0801377296447754,
	"learning_rate": 8e-05,
	"loss": 0.5805,
	"step": 20000
	},
	{
	"epoch": 46.948356807511736,
	"eval_accuracy": 0.8456604553444954,
	"eval_loss": 0.7381341457366943,
	"eval_runtime": 136.8181,
	"eval_samples_per_second": 129.237,
	"eval_steps_per_second": 4.042,
	"step": 20000
	},
	{
	"epoch": 48.12206572769953,
	"grad_norm": 2.0854578018188477,
	"learning_rate": 7.950000000000001e-05,
	"loss": 0.577,
	"step": 20500
	},
	{
	"epoch": 48.12206572769953,
	"eval_accuracy": 0.8459030596342113,
	"eval_loss": 0.7439441680908203,
	"eval_runtime": 137.0553,
	"eval_samples_per_second": 129.014,
	"eval_steps_per_second": 4.035,
	"step": 20500
	},
	{
	"epoch": 49.29577464788732,
	"grad_norm": 2.0203611850738525,
	"learning_rate": 7.900000000000001e-05,
	"loss": 0.5702,
	"step": 21000
	},
	{
	"epoch": 49.29577464788732,
	"eval_accuracy": 0.8458144906353607,
	"eval_loss": 0.739824116230011,
	"eval_runtime": 147.5519,
	"eval_samples_per_second": 119.836,
	"eval_steps_per_second": 3.748,
	"step": 21000
	},
	{
	"epoch": 50.46948356807512,
	"grad_norm": 2.07930326461792,
	"learning_rate": 7.850000000000001e-05,
	"loss": 0.5626,
	"step": 21500
	},
	{
	"epoch": 50.46948356807512,
	"eval_accuracy": 0.847225799976582,
	"eval_loss": 0.7376012206077576,
	"eval_runtime": 140.7844,
	"eval_samples_per_second": 125.596,
	"eval_steps_per_second": 3.928,
	"step": 21500
	},
	{
	"epoch": 51.64319248826291,
	"grad_norm": 1.9633455276489258,
	"learning_rate": 7.800000000000001e-05,
	"loss": 0.5644,
	"step": 22000
	},
	{
	"epoch": 51.64319248826291,
	"eval_accuracy": 0.8477510357072401,
	"eval_loss": 0.7312297224998474,
	"eval_runtime": 136.8418,
	"eval_samples_per_second": 129.215,
	"eval_steps_per_second": 4.041,
	"step": 22000
	},
	{
	"epoch": 52.816901408450704,
	"grad_norm": 2.0171732902526855,
	"learning_rate": 7.75e-05,
	"loss": 0.5575,
	"step": 22500
	},
	{
	"epoch": 52.816901408450704,
	"eval_accuracy": 0.8479556976991851,
	"eval_loss": 0.7324073314666748,
	"eval_runtime": 136.8371,
	"eval_samples_per_second": 129.219,
	"eval_steps_per_second": 4.041,
	"step": 22500
	},
	{
	"epoch": 53.990610328638496,
	"grad_norm": 1.9490004777908325,
	"learning_rate": 7.7e-05,
	"loss": 0.5504,
	"step": 23000
	},
	{
	"epoch": 53.990610328638496,
	"eval_accuracy": 0.8482885853024055,
	"eval_loss": 0.739380955696106,
	"eval_runtime": 136.7899,
	"eval_samples_per_second": 129.264,
	"eval_steps_per_second": 4.043,
	"step": 23000
	},
	{
	"epoch": 55.16431924882629,
	"grad_norm": 2.1706230640411377,
	"learning_rate": 7.65e-05,
	"loss": 0.5467,
	"step": 23500
	},
	{
	"epoch": 55.16431924882629,
	"eval_accuracy": 0.8485212684731438,
	"eval_loss": 0.7348983287811279,
	"eval_runtime": 137.1652,
	"eval_samples_per_second": 128.91,
	"eval_steps_per_second": 4.032,
	"step": 23500
	},
	{
	"epoch": 56.33802816901409,
	"grad_norm": 2.046226978302002,
	"learning_rate": 7.6e-05,
	"loss": 0.5434,
	"step": 24000
	},
	{
	"epoch": 56.33802816901409,
	"eval_accuracy": 0.8486974677705212,
	"eval_loss": 0.736895740032196,
	"eval_runtime": 136.9534,
	"eval_samples_per_second": 129.11,
	"eval_steps_per_second": 4.038,
	"step": 24000
	},
	{
	"epoch": 57.51173708920188,
	"grad_norm": 1.9242944717407227,
	"learning_rate": 7.55e-05,
	"loss": 0.5378,
	"step": 24500
	},
	{
	"epoch": 57.51173708920188,
	"eval_accuracy": 0.8492700287304648,
	"eval_loss": 0.7279884815216064,
	"eval_runtime": 136.7008,
	"eval_samples_per_second": 129.348,
	"eval_steps_per_second": 4.045,
	"step": 24500
	},
	{
	"epoch": 58.68544600938967,
	"grad_norm": 1.9436827898025513,
	"learning_rate": 7.500000000000001e-05,
	"loss": 0.5382,
	"step": 25000
	},
	{
	"epoch": 58.68544600938967,
	"eval_accuracy": 0.8496587662017004,
	"eval_loss": 0.7233351469039917,
	"eval_runtime": 136.9816,
	"eval_samples_per_second": 129.083,
	"eval_steps_per_second": 4.037,
	"step": 25000
	},
	{
	"epoch": 59.859154929577464,
	"grad_norm": 2.442077159881592,
	"learning_rate": 7.450000000000001e-05,
	"loss": 0.5334,
	"step": 25500
	},
	{
	"epoch": 59.859154929577464,
	"eval_accuracy": 0.8502614948790587,
	"eval_loss": 0.7267663478851318,
	"eval_runtime": 140.4178,
	"eval_samples_per_second": 125.924,
	"eval_steps_per_second": 3.938,
	"step": 25500
	},
	{
	"epoch": 61.032863849765256,
	"grad_norm": 2.1809020042419434,
	"learning_rate": 7.4e-05,
	"loss": 0.5295,
	"step": 26000
	},
	{
	"epoch": 61.032863849765256,
	"eval_accuracy": 0.8492560240081366,
	"eval_loss": 0.7322823405265808,
	"eval_runtime": 137.5974,
	"eval_samples_per_second": 128.505,
	"eval_steps_per_second": 4.019,
	"step": 26000
	},
	{
	"epoch": 62.20657276995305,
	"grad_norm": 2.0946710109710693,
	"learning_rate": 7.35e-05,
	"loss": 0.5215,
	"step": 26500
	},
	{
	"epoch": 62.20657276995305,
	"eval_accuracy": 0.8505152353921837,
	"eval_loss": 0.721396803855896,
	"eval_runtime": 136.7594,
	"eval_samples_per_second": 129.293,
	"eval_steps_per_second": 4.044,
	"step": 26500
	},
	{
	"epoch": 63.38028169014085,
	"grad_norm": 2.1418216228485107,
	"learning_rate": 7.3e-05,
	"loss": 0.5188,
	"step": 27000
	},
	{
	"epoch": 63.38028169014085,
	"eval_accuracy": 0.8503667583911142,
	"eval_loss": 0.7287681698799133,
	"eval_runtime": 136.8587,
	"eval_samples_per_second": 129.199,
	"eval_steps_per_second": 4.041,
	"step": 27000
	},
	{
	"epoch": 64.55399061032864,
	"grad_norm": 2.0790982246398926,
	"learning_rate": 7.25e-05,
	"loss": 0.5168,
	"step": 27500
	},
	{
	"epoch": 64.55399061032864,
	"eval_accuracy": 0.8514007297976166,
	"eval_loss": 0.7309630513191223,
	"eval_runtime": 136.1553,
	"eval_samples_per_second": 129.866,
	"eval_steps_per_second": 4.062,
	"step": 27500
	},
	{
	"epoch": 65.72769953051643,
	"grad_norm": 2.085266351699829,
	"learning_rate": 7.2e-05,
	"loss": 0.5125,
	"step": 28000
	},
	{
	"epoch": 65.72769953051643,
	"eval_accuracy": 0.8518668186024253,
	"eval_loss": 0.7231945395469666,
	"eval_runtime": 147.5131,
	"eval_samples_per_second": 119.867,
	"eval_steps_per_second": 3.749,
	"step": 28000
	},
	{
	"epoch": 66.90140845070422,
	"grad_norm": 1.7428772449493408,
	"learning_rate": 7.15e-05,
	"loss": 0.5076,
	"step": 28500
	},
	{
	"epoch": 66.90140845070422,
	"eval_accuracy": 0.8518548866516221,
	"eval_loss": 0.726669430732727,
	"eval_runtime": 139.3497,
	"eval_samples_per_second": 126.889,
	"eval_steps_per_second": 3.968,
	"step": 28500
	},
	{
	"epoch": 68.07511737089202,
	"grad_norm": 1.9387340545654297,
	"learning_rate": 7.1e-05,
	"loss": 0.5018,
	"step": 29000
	},
	{
	"epoch": 68.07511737089202,
	"eval_accuracy": 0.8516039425023846,
	"eval_loss": 0.7305765151977539,
	"eval_runtime": 136.8809,
	"eval_samples_per_second": 129.178,
	"eval_steps_per_second": 4.04,
	"step": 29000
	},
	{
	"epoch": 69.24882629107981,
	"grad_norm": 2.090191125869751,
	"learning_rate": 7.05e-05,
	"loss": 0.5011,
	"step": 29500
	},
	{
	"epoch": 69.24882629107981,
	"eval_accuracy": 0.8522613468602297,
	"eval_loss": 0.723237931728363,
	"eval_runtime": 137.4062,
	"eval_samples_per_second": 128.684,
	"eval_steps_per_second": 4.025,
	"step": 29500
	},
	{
	"epoch": 70.4225352112676,
	"grad_norm": 1.8190377950668335,
	"learning_rate": 7e-05,
	"loss": 0.4986,
	"step": 30000
	},
	{
	"epoch": 70.4225352112676,
	"eval_accuracy": 0.8533026826846422,
	"eval_loss": 0.7156932353973389,
	"eval_runtime": 136.1553,
	"eval_samples_per_second": 129.866,
	"eval_steps_per_second": 4.062,
	"step": 30000
	},
	{
	"epoch": 71.59624413145539,
	"grad_norm": 2.007854700088501,
	"learning_rate": 6.95e-05,
	"loss": 0.4915,
	"step": 30500
	},
	{
	"epoch": 71.59624413145539,
	"eval_accuracy": 0.8527300721103733,
	"eval_loss": 0.7252740859985352,
	"eval_runtime": 136.7888,
	"eval_samples_per_second": 129.265,
	"eval_steps_per_second": 4.043,
	"step": 30500
	},
	{
	"epoch": 72.7699530516432,
	"grad_norm": 2.4322381019592285,
	"learning_rate": 6.9e-05,
	"loss": 0.4934,
	"step": 31000
	},
	{
	"epoch": 72.7699530516432,
	"eval_accuracy": 0.8530242933183955,
	"eval_loss": 0.7319638133049011,
	"eval_runtime": 144.2929,
	"eval_samples_per_second": 122.542,
	"eval_steps_per_second": 3.832,
	"step": 31000
	},
	{
	"epoch": 73.94366197183099,
	"grad_norm": 2.21516489982605,
	"learning_rate": 6.850000000000001e-05,
	"loss": 0.4895,
	"step": 31500
	},
	{
	"epoch": 73.94366197183099,
	"eval_accuracy": 0.8537945053849306,
	"eval_loss": 0.7180453538894653,
	"eval_runtime": 141.0891,
	"eval_samples_per_second": 125.325,
	"eval_steps_per_second": 3.92,
	"step": 31500
	},
	{
	"epoch": 75.11737089201878,
	"grad_norm": 2.0788252353668213,
	"learning_rate": 6.800000000000001e-05,
	"loss": 0.4822,
	"step": 32000
	},
	{
	"epoch": 75.11737089201878,
	"eval_accuracy": 0.8538218958075418,
	"eval_loss": 0.7125606536865234,
	"eval_runtime": 137.0269,
	"eval_samples_per_second": 129.04,
	"eval_steps_per_second": 4.036,
	"step": 32000
	},
	{
	"epoch": 76.29107981220658,
	"grad_norm": 2.038712978363037,
	"learning_rate": 6.750000000000001e-05,
	"loss": 0.4807,
	"step": 32500
	},
	{
	"epoch": 76.29107981220658,
	"eval_accuracy": 0.8543182928024404,
	"eval_loss": 0.7191519141197205,
	"eval_runtime": 136.1481,
	"eval_samples_per_second": 129.873,
	"eval_steps_per_second": 4.062,
	"step": 32500
	},
	{
	"epoch": 77.46478873239437,
	"grad_norm": 2.133082389831543,
	"learning_rate": 6.7e-05,
	"loss": 0.4743,
	"step": 33000
	},
	{
	"epoch": 77.46478873239437,
	"eval_accuracy": 0.8547410139669203,
	"eval_loss": 0.7057022452354431,
	"eval_runtime": 136.0992,
	"eval_samples_per_second": 129.92,
	"eval_steps_per_second": 4.063,
	"step": 33000
	},
	{
	"epoch": 78.63849765258216,
	"grad_norm": 1.9323476552963257,
	"learning_rate": 6.65e-05,
	"loss": 0.4749,
	"step": 33500
	},
	{
	"epoch": 78.63849765258216,
	"eval_accuracy": 0.8546438959333029,
	"eval_loss": 0.7180441617965698,
	"eval_runtime": 141.0328,
	"eval_samples_per_second": 125.375,
	"eval_steps_per_second": 3.921,
	"step": 33500
	},
	{
	"epoch": 79.81220657276995,
	"grad_norm": 2.1482994556427,
	"learning_rate": 6.6e-05,
	"loss": 0.4693,
	"step": 34000
	},
	{
	"epoch": 79.81220657276995,
	"eval_accuracy": 0.8554924128329217,
	"eval_loss": 0.7105869054794312,
	"eval_runtime": 137.5148,
	"eval_samples_per_second": 128.583,
	"eval_steps_per_second": 4.021,
	"step": 34000
	},
	{
	"epoch": 80.98591549295774,
	"grad_norm": 2.077798366546631,
	"learning_rate": 6.55e-05,
	"loss": 0.4675,
	"step": 34500
	},
	{
	"epoch": 80.98591549295774,
	"eval_accuracy": 0.8544003573962279,
	"eval_loss": 0.7216335535049438,
	"eval_runtime": 142.3955,
	"eval_samples_per_second": 124.175,
	"eval_steps_per_second": 3.884,
	"step": 34500
	},
	{
	"epoch": 82.15962441314554,
	"grad_norm": 2.2198646068573,
	"learning_rate": 6.500000000000001e-05,
	"loss": 0.4637,
	"step": 35000
	},
	{
	"epoch": 82.15962441314554,
	"eval_accuracy": 0.855125887761347,
	"eval_loss": 0.717957079410553,
	"eval_runtime": 137.0613,
	"eval_samples_per_second": 129.008,
	"eval_steps_per_second": 4.035,
	"step": 35000
	},
	{
	"epoch": 83.33333333333333,
	"grad_norm": 2.155299186706543,
	"learning_rate": 6.450000000000001e-05,
	"loss": 0.461,
	"step": 35500
	},
	{
	"epoch": 83.33333333333333,
	"eval_accuracy": 0.8554556348895517,
	"eval_loss": 0.7124961614608765,
	"eval_runtime": 145.4916,
	"eval_samples_per_second": 121.533,
	"eval_steps_per_second": 3.801,
	"step": 35500
	},
	{
	"epoch": 84.50704225352112,
	"grad_norm": 2.8300819396972656,
	"learning_rate": 6.400000000000001e-05,
	"loss": 0.4542,
	"step": 36000
	},
	{
	"epoch": 84.50704225352112,
	"eval_accuracy": 0.856205421066434,
	"eval_loss": 0.7241988182067871,
	"eval_runtime": 138.1126,
	"eval_samples_per_second": 128.026,
	"eval_steps_per_second": 4.004,
	"step": 36000
	},
	{
	"epoch": 85.68075117370893,
	"grad_norm": 2.4033689498901367,
	"learning_rate": 6.35e-05,
	"loss": 0.4564,
	"step": 36500
	},
	{
	"epoch": 85.68075117370893,
	"eval_accuracy": 0.8557880398860113,
	"eval_loss": 0.7188218832015991,
	"eval_runtime": 138.5628,
	"eval_samples_per_second": 127.61,
	"eval_steps_per_second": 3.991,
	"step": 36500
	},
	{
	"epoch": 86.85446009389672,
	"grad_norm": 2.104976177215576,
	"learning_rate": 6.3e-05,
	"loss": 0.4497,
	"step": 37000
	},
	{
	"epoch": 86.85446009389672,
	"eval_accuracy": 0.8571525482780049,
	"eval_loss": 0.718337893486023,
	"eval_runtime": 136.8784,
	"eval_samples_per_second": 129.18,
	"eval_steps_per_second": 4.04,
	"step": 37000
	},
	{
	"epoch": 88.02816901408451,
	"grad_norm": 1.9449199438095093,
	"learning_rate": 6.25e-05,
	"loss": 0.4485,
	"step": 37500
	},
	{
	"epoch": 88.02816901408451,
	"eval_accuracy": 0.8572300673528399,
	"eval_loss": 0.7067864537239075,
	"eval_runtime": 140.6771,
	"eval_samples_per_second": 125.692,
	"eval_steps_per_second": 3.931,
	"step": 37500
	},
	{
	"epoch": 89.2018779342723,
	"grad_norm": 2.0170960426330566,
	"learning_rate": 6.2e-05,
	"loss": 0.4486,
	"step": 38000
	},
	{
	"epoch": 89.2018779342723,
	"eval_accuracy": 0.8567210575027162,
	"eval_loss": 0.7134066820144653,
	"eval_runtime": 137.1729,
	"eval_samples_per_second": 128.903,
	"eval_steps_per_second": 4.031,
	"step": 38000
	},
	{
	"epoch": 90.3755868544601,
	"grad_norm": 2.048830032348633,
	"learning_rate": 6.15e-05,
	"loss": 0.4439,
	"step": 38500
	},
	{
	"epoch": 90.3755868544601,
	"eval_accuracy": 0.8563134552098389,
	"eval_loss": 0.7194843292236328,
	"eval_runtime": 136.9411,
	"eval_samples_per_second": 129.121,
	"eval_steps_per_second": 4.038,
	"step": 38500
	},
	{
	"epoch": 91.54929577464789,
	"grad_norm": 2.0259907245635986,
	"learning_rate": 6.1e-05,
	"loss": 0.4385,
	"step": 39000
	},
	{
	"epoch": 91.54929577464789,
	"eval_accuracy": 0.8580620221342309,
	"eval_loss": 0.7045323252677917,
	"eval_runtime": 137.122,
	"eval_samples_per_second": 128.951,
	"eval_steps_per_second": 4.033,
	"step": 39000
	}
	],
	"logging_steps": 500,
	"max_steps": 100000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 235,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 3.2882090840162304e+17,
	"train_batch_size": 16,
	"trial_name": null,
	"trial_params": null
	}