node3.html

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2 Final//FI">

<!--Converted with jLaTeX2HTML 2002 (1.62) JA patch-1.4
patched version by:  Kenshi Muto, Debian Project.
LaTeX2HTML 2002 (1.62),
original version by:  Nikos Drakos, CBLU, University of Leeds
* revised and updated by:  Marcus Hennecke, Ross Moore, Herb Swan
* with significant contributions from:
  Jens Lippmann, Marek Rouchal, Martin Wilck and others -->
<HTML>
<HEAD>
<TITLE>1. Mitä on annotaatio?</TITLE>
<META NAME="description" CONTENT="1. Mitä on annotaatio?">
<META NAME="keywords" CONTENT="annotation_guide">
<META NAME="resource-type" CONTENT="document">
<META NAME="distribution" CONTENT="global">

<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=utf-8">
<META NAME="Generator" CONTENT="jLaTeX2HTML v2002 JA patch-1.4">
<META HTTP-EQUIV="Content-Style-Type" CONTENT="text/css">

<LINK REL="STYLESHEET" HREF="annotation_guide.css">

<LINK REL="previous" HREF="node2.html">
<LINK REL="up" HREF="node2.html">
<LINK REL="next" HREF="node4.html">
</HEAD>

<BODY >
<!--Navigation Panel-->
<A NAME="tex2html437"
  HREF="node4.html">
<IMG WIDTH="37" HEIGHT="24" ALIGN="BOTTOM" BORDER="0" ALT="next" SRC="next.png"></A> 
<A NAME="tex2html431"
  HREF="node2.html">
<IMG WIDTH="26" HEIGHT="24" ALIGN="BOTTOM" BORDER="0" ALT="up" SRC="up.png"></A> 
<A NAME="tex2html427"
  HREF="node2.html">
<IMG WIDTH="63" HEIGHT="24" ALIGN="BOTTOM" BORDER="0" ALT="previous" SRC="prev.png"></A> 
<A NAME="tex2html433"
  HREF="node1.html">
<IMG WIDTH="65" HEIGHT="24" ALIGN="BOTTOM" BORDER="0" ALT="contents" SRC="contents.png"></A> 
<A NAME="tex2html435"
  HREF="node63.html">
<IMG WIDTH="43" HEIGHT="24" ALIGN="BOTTOM" BORDER="0" ALT="index" SRC="index.png"></A> 
<BR>
<!--End of Navigation Panel-->

<H1><A NAME="SECTION02100000000000000000"></A><A NAME="sec:Mita-on-annotaatio_"></A>
<BR>
1. Mit&auml; on annotaatio?
</H1>

<P>
<B>Annotointi<A NAME="75"></A> eli nimikointi<A NAME="76"></A>
on puhe- tai muun aineiston kuvaamista, luokittelua ja j&auml;sentely&auml;
systemaattisella tavalla.</B> Digitaalisesti tallennettu puhen&auml;yte nimikoidaan
yleens&auml; jollakin t&auml;h&auml;n tarkoitukseen kehitetyll&auml; tietokoneohjelmalla
(esim. Praat, Puh-editori, CLAN, Anvil). T&auml;m&auml; annotaatio-oppaan osa
kannattaa lukea ensin, jos ei ole aikaisemmin nimikoinut l. annotoinut
puheaineistoa.<A NAME="tex2html1"
  HREF="#foot1392"><SUP>1.1</SUP></A>
<P>
Nimikoinnilla (engl. <I>labeling</I>) eli annotoinnilla (<I>annotation</I>
&gt; <I>to annotate</I>) tarkoitetaan sit&auml;, ett&auml; digitaalisesti tallennettuun
puhen&auml;ytteeseen liitet&auml;&auml;n systemaattisesti nimikkeit&auml;<A NAME="82"></A>
(<I>labels</I>) eli annotaatioita<A NAME="84"></A> (<I>annotations</I>)
eli symbolisia kuvauksia n&auml;ytteen sis&auml;ll&ouml;st&auml;. Nimikoitavan &auml;&auml;ni- tai
videon&auml;ytteen on oltava digitaalisessa muodossa ts. yhten&auml; tai useampana
tiedostona esim. tietokoneen kovalevyll&auml; tai erityyppisill&auml; levykkeill&auml;.<A NAME="tex2html2"
  HREF="#foot1393"><SUP>1.2</SUP></A> Alkuper&auml;ist&auml; tallennetta, esim. &auml;&auml;ni- tai videotiedostoa, jota annotaation
avulla kuvataan, kutsutaan t&auml;ss&auml; yhteydess&auml; <I>signaaliksi</I><A NAME="89"></A>.
Jos kuvataan &auml;&auml;neen luettua, kirjoitettua teksti&auml;, annotoitava signaali
on aina puhesignaali. 

<P>
<B>Nimikoinnissa annotaatiot on sidottava &auml;&auml;ni- tai videon&auml;ytteen
aikaulottuvuuteen.</B> T&auml;m&auml;n tavoitteen saavuttamiseksi n&auml;ytett&auml; kuunnellaan
ja/tai katsellaan ja siit&auml; piirrettyj&auml; analyysikuvia tarkastellaan
nimikointiin tarkoitetulla ohjelmalla. Kuuntelun ja katselun perusteella
luodaan &auml;&auml;ni- ja/tai videon&auml;ytteen &#34;pariksi&#34; tai
laajennukseksi nimikointitiedosto, joka sis&auml;lt&auml;&auml; n&auml;ytteen kuvaukset.
T&auml;t&auml; varten n&auml;yte yleens&auml; <I>segmentoidaan</I><A NAME="94"></A>:
siit&auml; rajataan halutulla tarkkuudella <I>segmenttej&auml;</I><A NAME="96"></A>
(&auml;&auml;ni- tai videop&auml;tki&auml;, joilla on m&auml;&auml;r&auml;tty alku- ja loppupiste sek&auml;
ajallinen kesto; engl. <I>segment</I>). Segmenteille voidaan sitten
antaa nimi&auml; eli <I>nimikoida</I> ne. My&ouml;s n&auml;ytteen tietyille yksitt&auml;isille
ajanhetkille (aikapisteille, engl. <I>time point</I>) voidaan antaa
nimi&auml; (n&auml;in syntyy ns. <I>ankkureita</I><A NAME="101"></A>, engl. <I>anchor</I><A NAME="103"></A>).
Nimikoinnin tarkoituksena on muodostaa &#34;maamerkkej&auml;&#34;,
joiden perusteella alkuper&auml;isest&auml; puhesignaalista voidaan l&ouml;yt&auml;&auml; halutut
osat ja kohdistaa niihin vaikkapa akustisia analyyseja tai muita toimenpiteit&auml;.
<B>Nimikointi on v&auml;ltt&auml;m&auml;t&ouml;nt&auml;, jos halutaan hallita ja hy&ouml;dynt&auml;&auml;
suurta m&auml;&auml;r&auml;&auml; puheaineistoa.</B>

<P>
Pelkk&auml; &auml;&auml;nin&auml;ytteen litterointi esimerkiksi tekstitiedostoon ei siis
viel&auml; ole nimikoimista, koska siin&auml; litteraatin eri osia ei kytket&auml;
&auml;&auml;nin&auml;ytteen vastaaviin ajallisiin kohtiin. Kannattaa huomata, ett&auml;
litteraatti tai mik&auml; tahansa muu transkriptio on aina tulkinta alkuper&auml;isest&auml;
aineistosta. Siksi pelk&auml;n litteraatin avulla ei pit&auml;isi koskaan tutkia
puhetta -- vaarana on, ett&auml; tulee pikemminkin tutkineeksi litteroijan
n&auml;kemyst&auml;, joka on viel&auml;p&auml; kuvattu kirjoitetulla kielell&auml;! K&auml;ytt&auml;m&auml;ll&auml;
nimikointia aineiston kuvausmenetelm&auml;n&auml; varmistetaan mahdollisimman
suora ja tarkka yhteys alkuper&auml;iseen puhetallenteeseen, jolloin tutkijalla
ja tutkimuksen arvioijalla on mahdollisuus tarkistaa ja korjailla
puheesta luotuja kuvauksia.

<P>
Annotaatiotyylej&auml; on erilaisia ja tutkija voi kehitt&auml;&auml; oman annotaatiotavan
sen mukaan, mink&auml;laisista puheen ilmi&ouml;ist&auml; on kiinnostunut. Annotaatio
voi olla esimerkiksi ortografinen ts. oikeinkirjoitusta noudattava
litteraatti<A NAME="107"></A> (engl. yl. <I>transliteration<A NAME="108"></A>,
transcript</I><A NAME="109"></A>)<A NAME="tex2html3"
  HREF="#foot1395"><SUP>1.3</SUP></A>, morfologisten yksik&ouml;iden kuvaus, prosodisten piirteiden kuvaus tai
vaikkapa foneettinen transkriptio puheesta. Ensin mainitussa tapauksessa
segmenttirajat voivat olla vaikkapa yksitt&auml;isten sanojen tai lauseiden
v&auml;lill&auml;, kun taas foneettista tutkimusta varten rajataan usein yksitt&auml;isi&auml;
&auml;&auml;nteit&auml;.

<P>
Jos erilaisia puheen yksik&ouml;it&auml; halutaan k&auml;ytt&auml;&auml; hy&ouml;dyksi yhdess&auml;,
voidaan luoda useita annotaatio- tai nimikointikerroksia tai -tasoja:
yhdelle merkit&auml;&auml;n esimerkiksi &auml;&auml;nteiden rajat, toiselle sanojen rajat,
kolmannelle lauserajat jne. Samalla tallenteella voi my&ouml;s olla useita
rinnakkaisia annotaatioita: eri tutkijat voivat annotoida saman aineiston
kukin oman n&auml;kemyksens&auml; mukaisesti.

<P>
Automaattisia segmentointi- ja nimikointimenetelmi&auml; yritet&auml;&auml;n jatkuvasti
kehitt&auml;&auml; eri puolilla maailmaa. Toistaiseksi tarkimman nimikoinnin
saa kuitenkin aikaan ihminen, sill&auml; puheen nimikointi vaatii monenlaisten
kielellisten tulkintojen tekemist&auml;. Samasta syyst&auml; voidaan todeta
my&ouml;s, ett&auml; sek&auml; puheen litterointi, transkriptio ett&auml; nimikointi ovat
aina jossakin m&auml;&auml;rin subjektiivisia tuotoksia: niiden tarkkuus ja
johdonmukaisuus riippuvat nimikoijan intresseist&auml;, tiedoista, taidoista
ja teoreettisesta n&auml;kemyksest&auml;.

<P>
<BR><HR>
<DL>
<DT><A NAME="foot1392">...</A><A
 HREF="node3.html#tex2html1"><SUP>1.1</SUP></A></DT>
<DD>Lisätietoa puhekorpusten tuottamisesta ja eri korpuksissa käytetyistä
annotaatiotavoista löytyy esim. teoksesta <I>The Production of
Speech Corpora</I> (<A
 HREF="node62.html#Schiel04">22</A>).

</DD>
<DT><A NAME="foot1393">...</A><A
 HREF="node3.html#tex2html2"><SUP>1.2</SUP></A></DT>
<DD>Myös erilaiset <B>kirjoitetun tekstin</B> joukkoon lisätyt tagit
(<I>tag</I>) ovat annotaatioita. Tällöin aikaulottuvuutta vastaa tekstin
lineaarinen rakenne (merkkien sijainti tekstin alkuun nähden) ja ääninäytteen
segmenttiä vastaa jokin tekstin osa, jonka ympärille tagit on merkitty.
Tässä oppaassa käsitellään kuitenkin ainoastaan puheaineiston annotaatiota.

</DD>
<DT><A NAME="foot1395">...</A><A
 HREF="node3.html#tex2html3"><SUP>1.3</SUP></A></DT>
<DD>Huom. suomessa käsite <I>translitteraatio</I> tarkoittaa lähinnä tietyn
kielen kirjoitusasun muuntamista merkkijärjestelmästä toiseen, esim.
venäjänkielisen kirjoituksen kyrillisten aakkosten muuntamista latinalaiselle
aakkostolle. Translitteraatio ei siis ole aivan sama asia kuin litteraatio,
jossa puhetta ''kirjainnetaan''.

</DD>
</DL>
<BR>
<BR>
<BR>
<BR>
<BR>
<!--Table of Child-Links-->
<A NAME="CHILD_LINKS"><STRONG>Aliluvut</STRONG></A>

<UL>
<LI><A NAME="tex2html439"
  HREF="node4.html">1.1 Miksi puhetta nimikoidaan eli
annotoidaan?</A>
<UL>
<LI><A NAME="tex2html440"
  HREF="node4.html#SECTION02111000000000000000">1.1.1 Johdonmukainen annotaatio</A>
</UL>
<BR>
<LI><A NAME="tex2html441"
  HREF="node5.html">1.2 Akustisten analyysien
hyödyntäminen nimikoinnissa</A>
<UL>
<LI><A NAME="tex2html442"
  HREF="node5.html#SECTION02121000000000000000">1.2.1 Spektrogrammi</A>
<LI><A NAME="tex2html443"
  HREF="node5.html#SECTION02122000000000000000">1.2.2 Intensiteettikäyrä</A>
<LI><A NAME="tex2html444"
  HREF="node5.html#SECTION02123000000000000000">1.2.3 Perustaajuuskäyrä</A>
<LI><A NAME="tex2html445"
  HREF="node5.html#SECTION02124000000000000000">1.2.4 Aaltomuoto</A>
</UL>
<BR>
<LI><A NAME="tex2html446"
  HREF="node6.html">1.3 Aineiston luomat rajoitukset</A>
<LI><A NAME="tex2html447"
  HREF="node7.html">1.4 Annotointityökalut</A>
<UL>
<LI><A NAME="tex2html448"
  HREF="node7.html#SECTION02141000000000000000">1.4.1 Annotointi Puh-editorilla</A>
<LI><A NAME="tex2html449"
  HREF="node7.html#SECTION02142000000000000000">1.4.2 Annotointi Praat-ohjelmalla</A>
</UL></UL>
<!--End of Table of Child-Links-->
<HR>
<!--Navigation Panel-->
<A NAME="tex2html437"
  HREF="node4.html">
<IMG WIDTH="37" HEIGHT="24" ALIGN="BOTTOM" BORDER="0" ALT="next" SRC="next.png"></A> 
<A NAME="tex2html431"
  HREF="node2.html">
<IMG WIDTH="26" HEIGHT="24" ALIGN="BOTTOM" BORDER="0" ALT="up" SRC="up.png"></A> 
<A NAME="tex2html427"
  HREF="node2.html">
<IMG WIDTH="63" HEIGHT="24" ALIGN="BOTTOM" BORDER="0" ALT="previous" SRC="prev.png"></A> 
<A NAME="tex2html433"
  HREF="node1.html">
<IMG WIDTH="65" HEIGHT="24" ALIGN="BOTTOM" BORDER="0" ALT="contents" SRC="contents.png"></A> 
<A NAME="tex2html435"
  HREF="node63.html">
<IMG WIDTH="43" HEIGHT="24" ALIGN="BOTTOM" BORDER="0" ALT="index" SRC="index.png"></A> 
<BR>
<B> :</B> <A NAME="tex2html438"
  HREF="node4.html">1.1 Miksi puhetta nimikoidaan</A>
<B> :</B> <A NAME="tex2html432"
  HREF="node2.html">I. Puheen annotaatio</A>
<B> :</B> <A NAME="tex2html428"
  HREF="node2.html">I. Puheen annotaatio</A>
 &nbsp <B>  <A NAME="tex2html434"
  HREF="node1.html">Sis&auml;lt&ouml;</A></B> 
 &nbsp <B>  <A NAME="tex2html436"
  HREF="node63.html">Hakemisto</A></B> 
<!--End of Navigation Panel-->
<ADDRESS>
Mietta Lennes
2005-05-11
</ADDRESS>
</BODY>
</HTML>