Uunituoretta some-tutkimusta! Metodologisesti mielestäni intressantti katsaus Ylilaudan politiikkaan ja ironiseen tyyliin by @tuukkaya, @veikkoeranti ja allekirjoittanut. Tätä on vieläpä kiva lukea!
journals.sagepub.com/doi/10.1177/20…
Kiinnostaisiko ketään tietää lisää menetelmistä (sanaupotukset, konvolutionaaliset neuroverkot, lda-topiikkimalli)? Ei se mitään, kerron niistä kuitenkin.. kunhan ehdin.
Tutkimuksen lähtökohtana oli intuitio että Ylilauta, Internet-kulttuurin omakseen kokevien nuorten miesten kokoontumispaikka, sisältää paljon omanlaistaan poliittista diskurssia joka on jossain ironisen trollaamisen ja radikalisoitumisen välimaastossa.
Ylilauta on voimakkaasti kiinni ajassa; kun uusia viestejä on tullut tarpeeksi, vanhemmat viestit katoavat pysyvästi näkyvistä. Meillä oli käytössämme aiemmin kerätty kokoelma viestejä, minkä lisäksi keräsimme oman näytteemme viime ajoilta.
Halusimme kehittää mallin joka tunnistaisi poliittista diskurssia muualtakin kuin politiikkaa varten olevalta viestialueelta. Mallin piti pystyä tunnistamaan Ylilaudalle ominaista kielenkäyttöä ja yleistämään tehokkaasti.
Käytimme tätä robustia (silloin muutaman vuoden vanhaa) menetelmää: arxiv.org/abs/1408.5882 - käytännössä teimme seuraavat asiat:
1a) Opetimme sanaupotusmallin ("word embeddings"). Tässä opetetaan neuroverkko ymmärtämään, millaisissa konteksteissa sanat yleensä esiintyvät. Suoriutuakseen tehtävästä hyvin, neuroverkon pitää oppia synonymiaa, semantiikkaa (potilas:sairaala :: koululainen:koulu),
1b) vallitsevaa diskurssia, ("___ on mädätystä"), ylipäätään kaikkea mitä sanojen käyttöön aineistossa liittyy. Näin jokaiselle sanalle saadaan esitysmuodoksi piste suuriulotteisessa (~100 ulottuvuutta) vektoriavaruudessa. Siellä lähisanat ovat merkitykseltään läheisiä.
2) Kun jokainen sana voidaan kuvata tällaisena pisteenä (käytännössä kasa numeroita, sanan "SDP" sijaan meillä on (0.112, -1.21, 0.81, ...), yhtä monta kuin oli tuon avaruuden ulotteisuus, näitä käytetään parametreina neuroverkolle, joka opetetaan luokittelemaan viestejä.
2b) Neuroverkolla on sisään tulevaa informaatiota, eli jokaisen viestin sanoista otetut upotus-representaatiot, ja kaksi lopussa olevaa luokittelija"neuronia", joiden aktivaation on tarkoitus vastata sitä, miten todennäköisesti viesti oli sisältönsä perusteella politiikkaosiosta.
2c) Näiden välissä on piilokerros neuroneita, jotka ovat kytkeytyneet sekä alkuun että loppuun. Kaikki informaatio sisällöstä kulkee näiden kytkösten läpi, ja koska ne ovat aluksi satunnaisia, neuroverkko arvaa satunnaisesti.
2d) Kytkökset tapahtuvat konvoluutiokerroksen läpi. Käytännössä sanajonon läpi kulkee ikkuna, joka tunnistaa sen ikkunassa olevia fraasinpätkiä (aluksi satunnaisesti) ja syöttää siitä tulevia aktivaatioita seuraavalle kerrokselle.
2e) Konvoluutiokerroksen ikkunoiden määrä on vakio, esimerkiksi 5000 erilaista ikkunaa, joista jokaisen maksimiaktivaatio syötetään seuraavaan kerrokseen, joten piilokerroksen koko on aina sama vaikka viestit olisivat eripituisia.
2f) Kytkökset eivät pysy pitkään satunnaisina. Neuroverkko pannaan uudelleen ja uudelleen käymään läpi viestejä, ja joka kerta jokaista sen painoa tuupataan hiukan siihen suuntaan, että se pitäisi todennäköisempänä oikeaa vastausta - joko sitä, että viesti oli..
2g) ..politiikka-alueelta, tai ei ollut. Tähän liittyy kaikenlaisia kikkoja jolla vältetään sitä että neuroverkko vain opettelee ulkoa näkemänsä viestit eikä oppisi yleistämään.
2h) Lopputuloksena meillä on järjestelmä, jolla saadaan jokaiselle viestille lukuarvo siitä, miten voimakkaasti se aktivoi neuroverkon "tämä on poliittista" -neuronia.
3a) Pisteytimme kaikki aineiston viestit ja rupesimme analysoimaan niitä. Tämä sisälsi lähiluentaa, eri alapalstojen vertailua keskenään, eri ajanjaksojen vertailua keskenään sekä topiikkimallin kehittämistä koko Ylilaudan poliittisista viesteistä.
3b) Topiikkimalli, tässä tapauksessa LDA, olettaa että viestien sisältämiä sanoja kuvaa tietty kiinteä määrä piilomuuttujia, tässä tapauksessa aiheita. Jokainen viesti on sekoitus eri aiheista, joitain isompi osa kuin toisia. Topiikeista ei aluksi tiedetä mitään, malli pyrkii..
3c) ..sijoittamaan tietynlaisia sanoja sisältävät viestit enemmän tiettyyn topiikkiin tilastollisten ominaisuuksien perusteella. Topiikkimallin avulla pystyimme edelleen tutkimaan mm. mitkä aiheet ovat mahdollisesti yleistyneet tutkimusjakson aikana.
Älkää kertoko tätä kellekään (ettei palvelimeni kaadu), mutta kokosin näiden pisteiden avulla omaan käyttöömme erilaisia selailtavia versioita viestikorpuksesta, hardwick.fi/ylilauta/. Nämä pitäisi joskus järjestää arikkelin oheen jollekin avoimen datan alustalle!

• • •

Missing some Tweet in this thread? You can try to force a refresh
 

Keep Current with Sam Hardwick

Sam Hardwick Profile picture

Stay in touch and get notified when new unrolls are available from this author!

Read all threads

This Thread may be Removed Anytime!

PDF

Twitter may remove this content at anytime! Save it as PDF for later use!

Try unrolling a thread yourself!

how to unroll video
  1. Follow @ThreadReaderApp to mention us!

  2. From a Twitter thread mention us with a keyword "unroll"
@threadreaderapp unroll

Practice here first or read more on our help page!

Did Thread Reader help you today?

Support us! We are indie developers!


This site is made by just two indie developers on a laptop doing marketing, support and development! Read more about the story.

Become a Premium Member ($3/month or $30/year) and get exclusive features!

Become Premium

Too expensive? Make a small donation by buying us coffee ($5) or help with server cost ($10)

Donate via Paypal Become our Patreon

Thank you for your support!

Follow Us on Twitter!