Skip to main content

Tutkijalle: tekstinlouhinta

Mitä on tekstinlouhinta?

Tekstianalytiikka (Text Analytics) eli tekstinlouhinta (Text data mining, TDM) on kokoelma menetelmiä, jonka avulla tekstidatasta etsitään relevanttia tietoa. Tekstianalytiikan avulla voidaan analysoida suuria tekstiaineistoja, luokitella tekstejä sekä löytää niistä ilmiöitä ja trendejä. Kielen rakenneanalyysin lisäksi sen avulla voidaan pureutua kielen semanttisiin tasoihin eli merkityksiin digitaalisessa tekstiaineistossa. Teksteistä voidaan lisäksi analysoida myös tunteita.

Tekstianalytiikka tarjoaa runsaasti menetelmiä tekstiaineistojen käsittelyn automatisointiin, säästää manuaalisia työvaiheita ja vähentää tulkintavirheitä. Tekstianalytiikan tulosten visualisointi tehostaa tulosten hyödyntämistä..

Kotimaisia lehtiaineistoja

Aineistoista saa luoda datasettejä. Mitä sillä tarkoitetaan?

Datasetillä tarkoitetaan Tutkaimen yhteydessä sellaista tutkijan aineistoista tuottamaa kokonaisuutta, joka ei sisällä sopimuksen kohteena olevia, tekijänoikeuslain suojaamia aineistoja tai niiden suojan piiriin kuuluvia osia. Datasetti voi koostua tekstistä, luvuista, graafeista tai niiden yhdistelmistä. Tutkaimessa mukana olevista, tekijänoikeussuojan piirissä olevista aineistoista tai niiden osista luotuja datasettejä saa tallentaa tutkimuksen verifiointia ja myöhempää tutkimusta varten tutkijoiden saataville tutkijan valitsemassa data-arkistossa tai vastaavassa palvelussa. Tämän sopimuksen kohteena olevia, tekijänoikeuden suojaamia aineistoja tai niiden osia saa tallentaa tutkimuksen verifiointia ja myöhempää tutkimusta varten tutkijoiden saataville suljetussa sertifioidussa arkistossa erillisen Kopioston ja arkiston ylläpitäjän välisen sopimuksen mukaisesti. Tällainen sopimus on Tutkain-sopimuksen allekirjoitushetkellä tehty Tietoarkiston kanssa. (Tutkain-hanke)

Lisensoidut aineistot tekstinlouhintaan

Kirjallisuutta tekstinlouhinnasta

  • Text and data mining example: Video tutorial explaining how text and data mining techniques cast new light on a large historical archive: n-gram visualizations, topic modeling and word embedding in closer look. Also key concepts of TDM are presented.
  • DARIAH - The Digital Research Infrastructure for the Arts and Humanities (DARIAH) is pan-european infrastructure for arts and humanities scholars working with computational methods. It supports digital research as well as the teaching of digital research methods.