Progetto ML

Il task

Victorian Age authorship attribuition, questo datasetè il più grande dataset per l’attribuzione di autore di Era Vittoriana. In questo dataset ci sono 50 autori dell’età vittoriana. O meglio, 45 vengono forniti nel training set e 50 vengono forniti nei dati di testing, questo per creare un problema non esaustivo. Ogni istanza è rappresentata da un testo di 1000 parole. Per rendere le cose più difficili, tra il training set e il testing set sono stati individuati diversi libri per ogni autore.

La struttura del progetto

L’idea è quella di fare uno showcase di alcuni possibili approcci a questo problema per poi vedere quale è il migliore.

Struttura:

Dataset pre processing
Feature extraction techniques:
- Word2Vec
- Bag of words: tf-IDF
- tf-IDF piped with n-grams
- DistilBert(?)
Reducing the number of features: SVD
Testing the classifiers:
- Naive Bayes: the baseline
- SVM
- DistilBert (?)
Risultati ottenuti

Dataset pre processing

Il dataset ha solamente due colonne: ‘text’ e ‘author’, che indicano rispettivamente l’intera porzione di testo e l’autore del suddetto.

# Load your training dataset
train_data = pd.read_csv('/content/drive/MyDrive/progetto ML/Gungor_2018_VictorianAuthorAttribution_data-train.csv', encoding='latin1')
 
train_data.head()

Il pre processing del dataset è stato fatto con

🪴 Bruno Gatti

Explorer

Progetto ML

Il task

La struttura del progetto

Struttura:

Dataset pre processing

Graph View

Table of Contents

Backlinks

🪴 Bruno Gatti

Explorer

Progetto ML

Il task §

La struttura del progetto §

Struttura: §

Dataset pre processing §

Graph View

Table of Contents

Backlinks

Il task

La struttura del progetto

Struttura:

Dataset pre processing