CrossEncoder based on dbmdz/bert-base-italian-uncased
This is a Cross Encoder model finetuned from dbmdz/bert-base-italian-uncased on the json dataset using the sentence-transformers library. It computes scores for pairs of texts, which can be used for text pair classification.
Model Details
Model Description
- Model Type: Cross Encoder
- Base model: dbmdz/bert-base-italian-uncased
- Maximum Sequence Length: 512 tokens
- Number of Output Labels: 3 labels
- Training Dataset:
- json
Model Sources
- Documentation: Sentence Transformers Documentation
- Documentation: Cross Encoder Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Cross Encoders on Hugging Face
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import CrossEncoder
# Download from the 🤗 Hub
model = CrossEncoder("software-si/horeca-recensioni-ita-nli")
# Get scores for pairs of texts
pairs = [
["La nostra esperienza all'hotel è stata inizialmente turbata dal rumore proveniente dalle camere adiacenti, che ha reso difficile trovare una sera di relax. Tuttavia, la colazione fu una svolta positiva, con una vasta varietà di pietanze che ci hanno permesso di iniziare la giornata con energia e soddisfazione.", 'La camera era molto rumorosa.'],
["La mia esperienza all'hotel era un po' delusa. La stanza era calma e confortevole, ma il bagno lasciava molto a desiderare, con residui poco igienici che non potevano essere dimenticati. Inoltre, la reception sembrava avere personale scarso e alcuni membri della stessa mi apparvero maleducati, anche se devo dire che la stanza stessa era molto spaziosa e comoda.", 'Era difficile riposare a causa del rumore in camera.'],
["La nostra camera era un po' rumorosa, ma la sua grande dimensione faceva ampiamente per compensare la mancanza di isolamento. La stanza era spaziosa e accogliente, con arredi moderni e una vista piacevole. Sebbene ci siamo aspettati una maggiore quiete, la camera era comunque un ottimo valore per il prezzo.", 'La struttura ha tre piani.'],
[' bevande annacquate e di scarsa qualità, poco spazio tra letto e mobili,', 'Abbiamo prenotato tramite un sito di viaggi online.'],
["Abbiamo trascorso una notte in questo albergo e siamo stati soddisfatti della sua comodità e del servizio eccellente offerto dal personale. L'area interna è ben arredata e ben distribuita, ma la colazione sembra essere stata un po' troppo limitata per le nostre aspettative.", 'La colazione non era soddisfacente.'],
]
scores = model.predict(pairs)
print(scores.shape)
# (5, 3)
Training Details
Training Dataset
json
- Dataset: json
- Size: 166,558 training samples
- Columns:
premises,hypothesis, andlabels - Approximate statistics based on the first 1000 samples:
premises hypothesis labels type string string int details - min: 44 characters
- mean: 339.59 characters
- max: 970 characters
- min: 20 characters
- mean: 42.2 characters
- max: 74 characters
- 0: ~31.40%
- 1: ~32.40%
- 2: ~36.20%
- Samples:
premises hypothesis labels La nostra esperienza all'hotel è stata piuttosto deludente. La pulizia degli spazi interni sembra essere scarsa, con pochi angoli puliti e ordinati. Tuttavia, la colazione è stata una delle parti più positive della nostra vacanza, grazie alle specialità locali servite in modo fresco e saporito. La camera in cui soggiornammo è stata un po' rumorosa e poco confortevole, ma di dimensioni sufficienti per sentirsi a proprio agio.Abbiamo prenotato tramite un sito di viaggi online.2difficile trovare tranquillità, caffè e cappuccino eccellenti,C’erano molte prese di corrente disponibili.2Siamo stati delusi dalla nostra esperienza all'albergo. Il rumore è stato un problema costante, con molti suoni provenienti dalle stanze adiacenti che ci hanno fatto difficoltà a dormire. La colazione è stata scarsa e insufficiente, non era sufficiente per soddisfare le nostre esigenze. Tuttavia, la pulizia dell'hotel è stata eccellente, tutto era in ordine e pulito. Un problema più grave è stato il personale, che era scarsamente disponibile e non ci sono stati membri del personale presenti durante tutta nostra permanenza.Il parcheggio è gratuito.2 - Loss:
CrossEntropyLoss
Evaluation Dataset
json
- Dataset: json
- Size: 49,968 evaluation samples
- Columns:
premises,hypothesis, andlabels - Approximate statistics based on the first 1000 samples:
premises hypothesis labels type string string int details - min: 47 characters
- mean: 348.5 characters
- max: 919 characters
- min: 20 characters
- mean: 41.95 characters
- max: 74 characters
- 0: ~30.60%
- 1: ~29.70%
- 2: ~39.70%
- Samples:
premises hypothesis labels La nostra esperienza all'hotel è stata inizialmente turbata dal rumore proveniente dalle camere adiacenti, che ha reso difficile trovare una sera di relax. Tuttavia, la colazione fu una svolta positiva, con una vasta varietà di pietanze che ci hanno permesso di iniziare la giornata con energia e soddisfazione.La camera era molto rumorosa.1La mia esperienza all'hotel era un po' delusa. La stanza era calma e confortevole, ma il bagno lasciava molto a desiderare, con residui poco igienici che non potevano essere dimenticati. Inoltre, la reception sembrava avere personale scarso e alcuni membri della stessa mi apparvero maleducati, anche se devo dire che la stanza stessa era molto spaziosa e comoda.Era difficile riposare a causa del rumore in camera.0La nostra camera era un po' rumorosa, ma la sua grande dimensione faceva ampiamente per compensare la mancanza di isolamento. La stanza era spaziosa e accogliente, con arredi moderni e una vista piacevole. Sebbene ci siamo aspettati una maggiore quiete, la camera era comunque un ottimo valore per il prezzo.La struttura ha tre piani.2 - Loss:
CrossEntropyLoss
Training Hyperparameters
Non-Default Hyperparameters
eval_strategy: stepsper_device_train_batch_size: 32per_device_eval_batch_size: 32learning_rate: 1e-05num_train_epochs: 1warmup_steps: 16655bf16: Trueload_best_model_at_end: True
Training Logs
| Epoch | Step | Training Loss | Validation Loss |
|---|---|---|---|
| 0.0961 | 500 | 1.1048 | 1.0593 |
| 0.1921 | 1000 | 0.9536 | 0.7136 |
| 0.2882 | 1500 | 0.5584 | 0.4574 |
| 0.3842 | 2000 | 0.4524 | 0.4242 |
| 0.4803 | 2500 | 0.3931 | 0.3079 |
| 0.5764 | 3000 | 0.2722 | 0.1725 |
| 0.6724 | 3500 | 0.1674 | 0.1038 |
| 0.7685 | 4000 | 0.1 | 0.0669 |
| 0.8646 | 4500 | 0.075 | 0.0462 |
| 0.9606 | 5000 | 0.0528 | 0.0355 |
Framework Versions
- Python: 3.12.3
- Sentence Transformers: 5.1.1
- Transformers: 4.56.2
- PyTorch: 2.8.0+cu128
- Accelerate: 1.10.1
- Datasets: 4.1.1
- Tokenizers: 0.22.1
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
- Downloads last month
- 3
Model tree for software-si/horeca-recensioni-ita-nli
Base model
dbmdz/bert-base-italian-uncased