Personality plays an impactful role in our lives and psychologists believe that an individual’s behavior can be inferred through its personality. Recently, there have been cases of
influential people in social media spreading misinformation, which is a potentially dangerous action. To prevent it, we need to identify which users will negatively impact the
community, and we might be able to predict such behavior through personality recognition from their social media posts.
This dissertation presents an approach to personality recognition from text. During the
bibliographic revision, we learned that a text analysis tool called LIWC is repeatedly used
with success for tasks of this type, thus we chose the LIWC dictionary to be the base feature
set to consider. Also, we have found that Support-Vector Machine classifiers exhibit the
best results. From these two findings, we outlined the following objectives: (i) exploit
machine learning algorithms different from the ones used in related works to find one
that produces better results; (ii) analyze whether extending LIWC’s vocabulary without
supervision improves the classification results.
For training and testing, we used a data set of stream-of-consciousness essays comprised
of 2468 samples annotated with the Big Five personality traits of the writer: openness
to experience, conscientiousness, extraversion, agreeableness, and neuroticism. We used
four machine learning algorithms for classification: Support-Vector Machine, Naive Bayes,
Decision Tree, and Random Forest. Also, we selected two methods for vocabulary expansion: WordNet’s synsets, and Word Embeddings.
The results obtained show that the Random Forest classifier performs similarly to the algorithms used in related works, with an average accuracy of approximately 56.5%, which
are promising ratings. The vocabulary expansions we have performed allowed the algorithm to match 0.6% more words from the essay data set. However, the changes to the
classification results were not significant, therefore the vocabulary expansion was not beneficial.A personalidade é um fator fundamental nas nossas vidas e os psicólogos acreditam que
o comportamento de um indivíduo pode ser inferido com base na sua personalidade. Recentemente, ocorreram casos de disseminação de informação falsa em redes sociais por
parte de pessoas influentes, executando assim ações potencialmente perigosas. Para prevenir estes acontecimentos, é necessário identificar quais os utilizadores que afetarão negativamente a comunidade, e poderemos fazê-lo com o reconhecimento de personalidade
através das suas publicações em redes sociais.
Esta dissertação apresenta uma abordagem à tarefa de reconhecimento de personalidade
através de texto. Durante a revisão bibliográfica, identificámos uma ferramenta de análise
de texto chamada Linguistic Inquiry and Word Count (LIWC) que é usada repetidamente
e com sucesso em trabalhos relacionados e, portanto, decidimos que será a base de dados a utilizar para extração de características. Verificou-se também que classificadores
Support-Vector Machine produzem os melhores resultados. Perante estes factos, delineámos os seguintes objetivos: (i) explorar algoritmos de aprendizagem automática diferentes dos usados em trabalhos relacionados para encontrar um que produza melhores
resultados; (ii) analisar se uma extensão não supervisionada do vocabulário do LIWC melhora os resultados da classificação.
Para treinar e testar os modelos, usámos um conjunto de 2468 ensaios de fluxo de consciência anotados com os traços de personalidade Big Five do escritor: abertura para a experiência, conscienciosidade, extroversão, amabilidade, e neuroticismo. Implementámos
quatro algoritmos de aprendizagem automática para classificar os textos: Support-Vector
Machine, Naive Bayes, Decision Tree, e Random Forest. Para além disso, selecionámos
dois métodos para a expansão de vocabulário: sinónimos cognitivos do WordNet, e Word
Embeddings.
Os resultados obtidos demonstram que o classificador Random Forest tem uma performance promissora, semelhante à dos algoritmos utilizados pelos artigos relacionados,
com uma exatidão média de aproximadamente 56.5%. As expansões de vocabulário realizadas traduziram-se num aumento de 0.6% de palavras dos ensaios atribuídas a categorias do LIWC. No entanto, a diferença introduzida nos resultados não é significativa,
portanto a expansão de vocabulário não mostrou benefícios