Il task
Victorian Age authorship attribuition, questo datasetè il più grande dataset per l’attribuzione di autore di Era Vittoriana. In questo dataset ci sono 50 autori dell’età vittoriana. O meglio, 45 vengono forniti nel training set e 50 vengono forniti nei dati di testing, questo per creare un problema non esaustivo. Ogni istanza è rappresentata da un testo di 1000 parole. Per rendere le cose più difficili, tra il training set e il testing set sono stati individuati diversi libri per ogni autore.
La struttura del progetto
L’idea è quella di fare uno showcase di alcuni possibili approcci a questo problema per poi vedere quale è il migliore.
Struttura:
- Dataset pre processing
- Feature extraction techniques:
- Word2Vec
- Bag of words: tf-IDF
- tf-IDF piped with n-grams
- DistilBert(?)
- Reducing the number of features: SVD
- Testing the classifiers:
- Naive Bayes: the baseline
- SVM
- DistilBert (?)
- Risultati ottenuti
Dataset pre processing
Il dataset ha solamente due colonne: ‘text’ e ‘author’, che indicano rispettivamente l’intera porzione di testo e l’autore del suddetto.
# Load your training dataset
train_data = pd.read_csv('/content/drive/MyDrive/progetto ML/Gungor_2018_VictorianAuthorAttribution_data-train.csv', encoding='latin1')
train_data.head()
Il pre processing del dataset è stato fatto con