-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathnode3.html
executable file
·245 lines (228 loc) · 11 KB
/
node3.html
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2 Final//FI">
<!--Converted with jLaTeX2HTML 2002 (1.62) JA patch-1.4
patched version by: Kenshi Muto, Debian Project.
LaTeX2HTML 2002 (1.62),
original version by: Nikos Drakos, CBLU, University of Leeds
* revised and updated by: Marcus Hennecke, Ross Moore, Herb Swan
* with significant contributions from:
Jens Lippmann, Marek Rouchal, Martin Wilck and others -->
<HTML>
<HEAD>
<TITLE>1. Mitä on annotaatio?</TITLE>
<META NAME="description" CONTENT="1. Mitä on annotaatio?">
<META NAME="keywords" CONTENT="annotation_guide">
<META NAME="resource-type" CONTENT="document">
<META NAME="distribution" CONTENT="global">
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=utf-8">
<META NAME="Generator" CONTENT="jLaTeX2HTML v2002 JA patch-1.4">
<META HTTP-EQUIV="Content-Style-Type" CONTENT="text/css">
<LINK REL="STYLESHEET" HREF="annotation_guide.css">
<LINK REL="previous" HREF="node2.html">
<LINK REL="up" HREF="node2.html">
<LINK REL="next" HREF="node4.html">
</HEAD>
<BODY >
<!--Navigation Panel-->
<A NAME="tex2html437"
HREF="node4.html">
<IMG WIDTH="37" HEIGHT="24" ALIGN="BOTTOM" BORDER="0" ALT="next" SRC="next.png"></A>
<A NAME="tex2html431"
HREF="node2.html">
<IMG WIDTH="26" HEIGHT="24" ALIGN="BOTTOM" BORDER="0" ALT="up" SRC="up.png"></A>
<A NAME="tex2html427"
HREF="node2.html">
<IMG WIDTH="63" HEIGHT="24" ALIGN="BOTTOM" BORDER="0" ALT="previous" SRC="prev.png"></A>
<A NAME="tex2html433"
HREF="node1.html">
<IMG WIDTH="65" HEIGHT="24" ALIGN="BOTTOM" BORDER="0" ALT="contents" SRC="contents.png"></A>
<A NAME="tex2html435"
HREF="node63.html">
<IMG WIDTH="43" HEIGHT="24" ALIGN="BOTTOM" BORDER="0" ALT="index" SRC="index.png"></A>
<BR>
<!--End of Navigation Panel-->
<H1><A NAME="SECTION02100000000000000000"></A><A NAME="sec:Mita-on-annotaatio_"></A>
<BR>
1. Mitä on annotaatio?
</H1>
<P>
<B>Annotointi<A NAME="75"></A> eli nimikointi<A NAME="76"></A>
on puhe- tai muun aineiston kuvaamista, luokittelua ja jäsentelyä
systemaattisella tavalla.</B> Digitaalisesti tallennettu puhenäyte nimikoidaan
yleensä jollakin tähän tarkoitukseen kehitetyllä tietokoneohjelmalla
(esim. Praat, Puh-editori, CLAN, Anvil). Tämä annotaatio-oppaan osa
kannattaa lukea ensin, jos ei ole aikaisemmin nimikoinut l. annotoinut
puheaineistoa.<A NAME="tex2html1"
HREF="#foot1392"><SUP>1.1</SUP></A>
<P>
Nimikoinnilla (engl. <I>labeling</I>) eli annotoinnilla (<I>annotation</I>
> <I>to annotate</I>) tarkoitetaan sitä, että digitaalisesti tallennettuun
puhenäytteeseen liitetään systemaattisesti nimikkeitä<A NAME="82"></A>
(<I>labels</I>) eli annotaatioita<A NAME="84"></A> (<I>annotations</I>)
eli symbolisia kuvauksia näytteen sisällöstä. Nimikoitavan ääni- tai
videonäytteen on oltava digitaalisessa muodossa ts. yhtenä tai useampana
tiedostona esim. tietokoneen kovalevyllä tai erityyppisillä levykkeillä.<A NAME="tex2html2"
HREF="#foot1393"><SUP>1.2</SUP></A> Alkuperäistä tallennetta, esim. ääni- tai videotiedostoa, jota annotaation
avulla kuvataan, kutsutaan tässä yhteydessä <I>signaaliksi</I><A NAME="89"></A>.
Jos kuvataan ääneen luettua, kirjoitettua tekstiä, annotoitava signaali
on aina puhesignaali.
<P>
<B>Nimikoinnissa annotaatiot on sidottava ääni- tai videonäytteen
aikaulottuvuuteen.</B> Tämän tavoitteen saavuttamiseksi näytettä kuunnellaan
ja/tai katsellaan ja siitä piirrettyjä analyysikuvia tarkastellaan
nimikointiin tarkoitetulla ohjelmalla. Kuuntelun ja katselun perusteella
luodaan ääni- ja/tai videonäytteen "pariksi" tai
laajennukseksi nimikointitiedosto, joka sisältää näytteen kuvaukset.
Tätä varten näyte yleensä <I>segmentoidaan</I><A NAME="94"></A>:
siitä rajataan halutulla tarkkuudella <I>segmenttejä</I><A NAME="96"></A>
(ääni- tai videopätkiä, joilla on määrätty alku- ja loppupiste sekä
ajallinen kesto; engl. <I>segment</I>). Segmenteille voidaan sitten
antaa nimiä eli <I>nimikoida</I> ne. Myös näytteen tietyille yksittäisille
ajanhetkille (aikapisteille, engl. <I>time point</I>) voidaan antaa
nimiä (näin syntyy ns. <I>ankkureita</I><A NAME="101"></A>, engl. <I>anchor</I><A NAME="103"></A>).
Nimikoinnin tarkoituksena on muodostaa "maamerkkejä",
joiden perusteella alkuperäisestä puhesignaalista voidaan löytää halutut
osat ja kohdistaa niihin vaikkapa akustisia analyyseja tai muita toimenpiteitä.
<B>Nimikointi on välttämätöntä, jos halutaan hallita ja hyödyntää
suurta määrää puheaineistoa.</B>
<P>
Pelkkä ääninäytteen litterointi esimerkiksi tekstitiedostoon ei siis
vielä ole nimikoimista, koska siinä litteraatin eri osia ei kytketä
ääninäytteen vastaaviin ajallisiin kohtiin. Kannattaa huomata, että
litteraatti tai mikä tahansa muu transkriptio on aina tulkinta alkuperäisestä
aineistosta. Siksi pelkän litteraatin avulla ei pitäisi koskaan tutkia
puhetta -- vaarana on, että tulee pikemminkin tutkineeksi litteroijan
näkemystä, joka on vieläpä kuvattu kirjoitetulla kielellä! Käyttämällä
nimikointia aineiston kuvausmenetelmänä varmistetaan mahdollisimman
suora ja tarkka yhteys alkuperäiseen puhetallenteeseen, jolloin tutkijalla
ja tutkimuksen arvioijalla on mahdollisuus tarkistaa ja korjailla
puheesta luotuja kuvauksia.
<P>
Annotaatiotyylejä on erilaisia ja tutkija voi kehittää oman annotaatiotavan
sen mukaan, minkälaisista puheen ilmiöistä on kiinnostunut. Annotaatio
voi olla esimerkiksi ortografinen ts. oikeinkirjoitusta noudattava
litteraatti<A NAME="107"></A> (engl. yl. <I>transliteration<A NAME="108"></A>,
transcript</I><A NAME="109"></A>)<A NAME="tex2html3"
HREF="#foot1395"><SUP>1.3</SUP></A>, morfologisten yksiköiden kuvaus, prosodisten piirteiden kuvaus tai
vaikkapa foneettinen transkriptio puheesta. Ensin mainitussa tapauksessa
segmenttirajat voivat olla vaikkapa yksittäisten sanojen tai lauseiden
välillä, kun taas foneettista tutkimusta varten rajataan usein yksittäisiä
äänteitä.
<P>
Jos erilaisia puheen yksiköitä halutaan käyttää hyödyksi yhdessä,
voidaan luoda useita annotaatio- tai nimikointikerroksia tai -tasoja:
yhdelle merkitään esimerkiksi äänteiden rajat, toiselle sanojen rajat,
kolmannelle lauserajat jne. Samalla tallenteella voi myös olla useita
rinnakkaisia annotaatioita: eri tutkijat voivat annotoida saman aineiston
kukin oman näkemyksensä mukaisesti.
<P>
Automaattisia segmentointi- ja nimikointimenetelmiä yritetään jatkuvasti
kehittää eri puolilla maailmaa. Toistaiseksi tarkimman nimikoinnin
saa kuitenkin aikaan ihminen, sillä puheen nimikointi vaatii monenlaisten
kielellisten tulkintojen tekemistä. Samasta syystä voidaan todeta
myös, että sekä puheen litterointi, transkriptio että nimikointi ovat
aina jossakin määrin subjektiivisia tuotoksia: niiden tarkkuus ja
johdonmukaisuus riippuvat nimikoijan intresseistä, tiedoista, taidoista
ja teoreettisesta näkemyksestä.
<P>
<BR><HR>
<DL>
<DT><A NAME="foot1392">...</A><A
HREF="node3.html#tex2html1"><SUP>1.1</SUP></A></DT>
<DD>Lisätietoa puhekorpusten tuottamisesta ja eri korpuksissa käytetyistä
annotaatiotavoista löytyy esim. teoksesta <I>The Production of
Speech Corpora</I> (<A
HREF="node62.html#Schiel04">22</A>).
</DD>
<DT><A NAME="foot1393">...</A><A
HREF="node3.html#tex2html2"><SUP>1.2</SUP></A></DT>
<DD>Myös erilaiset <B>kirjoitetun tekstin</B> joukkoon lisätyt tagit
(<I>tag</I>) ovat annotaatioita. Tällöin aikaulottuvuutta vastaa tekstin
lineaarinen rakenne (merkkien sijainti tekstin alkuun nähden) ja ääninäytteen
segmenttiä vastaa jokin tekstin osa, jonka ympärille tagit on merkitty.
Tässä oppaassa käsitellään kuitenkin ainoastaan puheaineiston annotaatiota.
</DD>
<DT><A NAME="foot1395">...</A><A
HREF="node3.html#tex2html3"><SUP>1.3</SUP></A></DT>
<DD>Huom. suomessa käsite <I>translitteraatio</I> tarkoittaa lähinnä tietyn
kielen kirjoitusasun muuntamista merkkijärjestelmästä toiseen, esim.
venäjänkielisen kirjoituksen kyrillisten aakkosten muuntamista latinalaiselle
aakkostolle. Translitteraatio ei siis ole aivan sama asia kuin litteraatio,
jossa puhetta ''kirjainnetaan''.
</DD>
</DL>
<BR>
<BR>
<BR>
<BR>
<BR>
<!--Table of Child-Links-->
<A NAME="CHILD_LINKS"><STRONG>Aliluvut</STRONG></A>
<UL>
<LI><A NAME="tex2html439"
HREF="node4.html">1.1 Miksi puhetta nimikoidaan eli
annotoidaan?</A>
<UL>
<LI><A NAME="tex2html440"
HREF="node4.html#SECTION02111000000000000000">1.1.1 Johdonmukainen annotaatio</A>
</UL>
<BR>
<LI><A NAME="tex2html441"
HREF="node5.html">1.2 Akustisten analyysien
hyödyntäminen nimikoinnissa</A>
<UL>
<LI><A NAME="tex2html442"
HREF="node5.html#SECTION02121000000000000000">1.2.1 Spektrogrammi</A>
<LI><A NAME="tex2html443"
HREF="node5.html#SECTION02122000000000000000">1.2.2 Intensiteettikäyrä</A>
<LI><A NAME="tex2html444"
HREF="node5.html#SECTION02123000000000000000">1.2.3 Perustaajuuskäyrä</A>
<LI><A NAME="tex2html445"
HREF="node5.html#SECTION02124000000000000000">1.2.4 Aaltomuoto</A>
</UL>
<BR>
<LI><A NAME="tex2html446"
HREF="node6.html">1.3 Aineiston luomat rajoitukset</A>
<LI><A NAME="tex2html447"
HREF="node7.html">1.4 Annotointityökalut</A>
<UL>
<LI><A NAME="tex2html448"
HREF="node7.html#SECTION02141000000000000000">1.4.1 Annotointi Puh-editorilla</A>
<LI><A NAME="tex2html449"
HREF="node7.html#SECTION02142000000000000000">1.4.2 Annotointi Praat-ohjelmalla</A>
</UL></UL>
<!--End of Table of Child-Links-->
<HR>
<!--Navigation Panel-->
<A NAME="tex2html437"
HREF="node4.html">
<IMG WIDTH="37" HEIGHT="24" ALIGN="BOTTOM" BORDER="0" ALT="next" SRC="next.png"></A>
<A NAME="tex2html431"
HREF="node2.html">
<IMG WIDTH="26" HEIGHT="24" ALIGN="BOTTOM" BORDER="0" ALT="up" SRC="up.png"></A>
<A NAME="tex2html427"
HREF="node2.html">
<IMG WIDTH="63" HEIGHT="24" ALIGN="BOTTOM" BORDER="0" ALT="previous" SRC="prev.png"></A>
<A NAME="tex2html433"
HREF="node1.html">
<IMG WIDTH="65" HEIGHT="24" ALIGN="BOTTOM" BORDER="0" ALT="contents" SRC="contents.png"></A>
<A NAME="tex2html435"
HREF="node63.html">
<IMG WIDTH="43" HEIGHT="24" ALIGN="BOTTOM" BORDER="0" ALT="index" SRC="index.png"></A>
<BR>
<B> :</B> <A NAME="tex2html438"
HREF="node4.html">1.1 Miksi puhetta nimikoidaan</A>
<B> :</B> <A NAME="tex2html432"
HREF="node2.html">I. Puheen annotaatio</A>
<B> :</B> <A NAME="tex2html428"
HREF="node2.html">I. Puheen annotaatio</A>
  <B> <A NAME="tex2html434"
HREF="node1.html">Sisältö</A></B>
  <B> <A NAME="tex2html436"
HREF="node63.html">Hakemisto</A></B>
<!--End of Navigation Panel-->
<ADDRESS>
Mietta Lennes
2005-05-11
</ADDRESS>
</BODY>
</HTML>