Using lengthwise scaling to compare feature frequencies across text lengths on Reddit

Tutkimustuotos: Artikkeli kirjassa/raportissa/konferenssijulkaisussaKirjan luku tai artikkeliTieteellinenvertaisarvioitu

Abstrakti

Texts of different lengths can be difficult to compare using quantitative methods. This is particularly true if many of the texts are extremely short, as is commonly the case with social media comments, where the median text length may be only a few dozen words. In this paper, I explore lengthwise scaling, that is, scaling applied to each text length separately, as a possible approach for getting around some of the statistical problems caused by different text lengths and short texts. I describe two implementations of this family of methods, lengthwise rarity scaling and lengthwise quantile scaling. I show in an exploratory analysis that these scaling methods support earlier results in terms of register differences between Reddit subreddits.
Alkuperäiskielienglanti
OtsikkoCorpus Approaches to Social Media
ToimittajatSofia Rüdiger, Daria Dayter
Sivumäärä20
JulkaisupaikkaAmsterdam
KustantajaJohn Benjamins
Julkaisupäivä2020
Sivut111-130
Artikkeli no5
ISBN (painettu)978-90-272-0794-4
ISBN (elektroninen)978-90-272-6049-9
DOI - pysyväislinkit
TilaJulkaistu - 2020
OKM-julkaisutyyppiA3 Kirjan tai muun kokoomateoksen osa

Julkaisusarja

NimiStudies in Corpus Linguistics
KustantajaJohn Benjamins
Numero98
ISSN (painettu)1388-0373

Tieteenalat

  • 6121 Kielitieteet
  • de Gruyter (Kustantaja)

    Liimatta, A. (Arvioitsija (reviewer))

    jouluk. 2020

    Aktiviteetti: Julkaisun vertaisarvioinnin ja toimituksellisen työn tyypitKäsikirjoitusten vertaisarviointi

Siteeraa tätä