Analiza sentimentului în recenzii de produse folosind NLP și BERT

Situatie

Analiza sentimentului presupune clasificarea automată a opiniilor exprimate în text, în categorii precum: pozitiv, negativ sau neutru. Este vitală pentru companii care vor să înțeleagă:

Ce spun clienții despre produsele lor
Ce probleme apar recurent
Cum variază satisfacția în timp.

Solutie

Alegerea unui model NLP

Modelele clasice (TF-IDF + Logistic Regression) au fost depășite de modelele de tip transformer, cum ar fi:

BERT (Bidirectional Encoder Representations from Transformers)
RoBERTa, DistilBERT – versiuni optimizate ale BERT

Acestea înțeleg mai bine contextul cuvintelor într-un text și pot atinge acurateți > 90%.

Set de date folosit

Vom folosi un dataset real de recenzii de produse Amazon (sau IMDB), cu coloanele:

Coloană	Descriere
`review`	Textul recenziei
`sentiment`	Eticheta: pozitiv / negativ

Pași de implementare

Pasul 1: Instalare și setup

Pasul 2: Încărcare set de date

Pasul 3: Tokenizare cu tokenizer-ul BERT

Pasul 4: Antrenare model BERT pentru clasificare

from transformers import BertForSequenceClassification, Trainer, TrainingArguments
model = BertForSequenceClassification.from_pretrained("bert-base-uncased", num_labels=2)
training_args = TrainingArguments(

    output_dir="./results",

    evaluation_strategy="epoch",

    per_device_train_batch_size=8,

    per_device_eval_batch_size=8,

    num_train_epochs=2,

)
trainer = Trainer(

    model=model,

    args=training_args,

    train_dataset=tokenized_dataset["train"].shuffle(seed=42).select(range(2000)),

    eval_dataset=tokenized_dataset["test"].select(range(1000)),

)

trainer.train()

Pasul 5: Evaluarea performanței

Se pot atinge valori de accuracy peste 90% cu doar câteva mii de exemple și fine-tuning minim.

Aplicare practică: clasificare în timp real

Clasificare a unui text nou:

Vizualizare: sentimente per produs sau categorie

Îmbunătățiri posibile

Îmbunătățire	Detalii
Multi-class sentiment	pozitiv / negativ / neutru / furios / ironic
Model localizat	BERT în română: dumitrescustefan/bert-base-romanian-cased-v1
Feedback time-based	analiză evolutivă a sentimentului
Explainability	interpretarea scorului folosind LIME/SHAP

Tip solutie

Permanent

Follow Us

Situatie

Solutie

Tip solutie

Voteaza

Despre Autor

Geanina Rizea

Solutii Asemanatoare

Leave A Comment? × Cancel Reply