1 research outputs found

    Emotion Classification with Natural Language Processing (Comparing BERT and Bi-Directional LSTM models for use with Twitter conversations)

    No full text
    We have constructed a novel neural network architecture called CWE-LSTM (concatenated word-emoji bidirectional long short-term memory) for classify- ing emotions in Twitter conversations. The architecture is based on a combina- tion of word and emoji embeddings with domain specificity in Twitter data. Its performance is compared to a current state of the art natural language process- ing model from Google, BERT. We show that CWE-LSTM is more successful at classifying emotions in Twitter conversations than BERT (F 1 73 versus 69). Fur- thermore, we hypothesize why this type of problem’s domain specificity makes it a poor candidate for transfer learning with BERT. This is to further detail the discussion between large, general models and slimmer, domain specific models in the field of natural language processing.Vi har skapat en modell som kĂ€nner igen vilken underliggande kĂ€nsla som finns i en konversation pĂ„ Twitter. För att utvĂ€rdera hur bra vĂ„r modell Ă€r har vi jĂ€mfört med BERT, en större modell skapad av Google. Det vetenskapliga fĂ€lt som handlar om hur datorer behandlar text heter natural language process- ing (NLP). Ett vanligt problem inom NLP Ă€r hur datorer ska förstĂ„ olika mĂ€nskliga kĂ€nslor. I vĂ„r uppsats skapar vi en modell (CWE-LSTM) som tittar pĂ„ konversationer frĂ„n Twitter. Modellen har som mĂ„l att bedöma vilken underliggande kĂ€nsla som finns i konversationen. En trend som fĂ„tt fotfĂ€ste inom NLP kallas transfer learning. HĂ€r anvĂ€nds en stor fĂ€rdig- byggd modell som anpassas till problemet man jobbar med. För att se hur bra modell vi har konstruerat, jĂ€mför vi den med transfer learning- modellen BERT, frĂ„n Google. BĂ„de Googles BERT och vĂ„r modell har samma mĂ„l: en textstrĂ€ng matas in och sannolikheter för vilken kĂ€nsla som finns i textstrĂ€ngen kommer ut. En fördel med BERT Ă€r att vi knappt behöver bearbeta data. Det som behövs Ă€r att finjustera BERT till vĂ„rt problem, vilket Google gjort sĂ„ lĂ€tt som möjligt. Detta stĂ„r i kontrast till CWE- LSTM som vi skapar frĂ„n grunden. Det första som behövs nĂ€r man bygger en modell som ska analy- sera text, Ă€r ett sĂ€tt för datorn att förstĂ„ texten. Med hjĂ€lp av word embeddings kan vi repre- sentera ord sĂ„ att vĂ„r modell kan lĂ€sa dem. Efter- som Emojis Ă€r sĂ„ vanliga pĂ„ Twitter har vi ocksĂ„ en speciell representation för dessa. Med hjĂ€lp av maskininlĂ€rningsmetoder kan vi sedan konstruera vĂ„r modell utan att beskriva exakt vad den ska leta efter. Modellen lĂ€r sig sjĂ€lv att hitta vad som Ă€r viktigt i konversationerna för att bestĂ€mma den underliggande kĂ€nslan. För att utvĂ€rdera hur bra modellerna fungerar, testas de pĂ„ konversationer de inte tidigare sett. VĂ„r slutsats Ă€r att CWE-LSTM lyckas bĂ€ttre Ă€n BERT nĂ€r det gĂ€ller att klassificera Twit- terkonversationer. Det kan bero pĂ„ olika saker. Framförallt sĂ„ lĂ€r sig BERT hur sprĂ„k hĂ€nger ihop pĂ„ en annan plats Ă€n Twitter. PoĂ€ngen med transfer learning-modeller Ă€r att de ska vara tillĂ€mpningsbara pĂ„ mĂ„nga typer av problem. Trasslet med chatkonversationer Ă€r att de Ă€r lite specifika, exempelvis Ă€r det sĂ€llan korrekt gram- matik. I vĂ„rt fall Ă€r det dĂ€rför bĂ€ttre att an- vĂ€nda CWE-LSTM. Slutsatsen Ă€r att det Ă€r vik- tigt att ha kĂ€nnedom om sitt problem innan tillvĂ€- gagĂ„ngssĂ€ttet bestĂ€ms. Förhoppningsvis ger vĂ„r uppsats en bĂ€ttre bild av vilka modeller som kan tillĂ€mpas pĂ„ vilket problem
    corecore