forked from ttm/dissertacao
-
Notifications
You must be signed in to change notification settings - Fork 0
/
bkp.tex
2132 lines (1653 loc) · 168 KB
/
bkp.tex
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
908
909
910
911
912
913
914
915
916
917
918
919
920
921
922
923
924
925
926
927
928
929
930
931
932
933
934
935
936
937
938
939
940
941
942
943
944
945
946
947
948
949
950
951
952
953
954
955
956
957
958
959
960
961
962
963
964
965
966
967
968
969
970
971
972
973
974
975
976
977
978
979
980
981
982
983
984
985
986
987
988
989
990
991
992
993
994
995
996
997
998
999
1000
\documentclass[
aip,
jmp,
amsmath,amssymb,
reprint,
]{revtex4-1}
\usepackage{graphicx}
\usepackage{grffile}
\usepackage{dcolumn}
\usepackage{bm}
\usepackage{multirow}
\usepackage{color}
\newcommand{\massa}{{\large \textsc{massa}}}
\newcommand{\mass}{{\large \textsc{mass}}}
\newcommand{\figgus}{{\large \textsc{figgus}}}
\begin{document}
\preprint{AIP/123-QED}
\title{Psychophysics of musical elements in discrete-time representation of sound}
\author{Renato Fabbri}
\homepage{http://www.estudiolivre.org/el-user.php?view\_user=gk}
\email{renato.fabbri@gmail.com}
\affiliation{
Instituto de F\'isica de S\~ao Carlos, Universidade de S\~ao Paulo (IFSC/USP)
}
\author{Luciano da Fontoura Costa}
\homepage{http://cyvision.ifsc.usp.br/~luciano/}
\email{ldfcosta@gmail.com}
\altaffiliation[Also at ]{IFSC-USP}
\author{Osvaldo N. Oliveira Jr.}
\homepage{www.polimeros.ifsc.usp.br/professors/professor.php?id=4}
\email{chu@ifsc.usp.br}
\altaffiliation[Also at ]{IFSC-USP}
\date{\today}
\begin{abstract}
The representation of the basic elements of music - such as notes, ornaments and intervalar structures - in terms of discrete audio signal is often used in software for music creation and design. Nevertheless, there is no unified approach that relates these elements to the sound discrete samples. In this article, each musical element is described by equations in sonic time samples, which are all implemented in scripts within an open source software toolbox, referred to as \massa\ (Music and Audio in Sequences and Samples). The fundamental element, the musical note with duration, volume, pitch and timbre, is related quantitatively to the characteristics of the discrete-time signal. Internal variations, such as tremolos, vibratos and spectral fluctuations, are also considered, which enables the synthesis of notes inspired by real instruments and new sonorities. With this representation of notes, resources are provided for the generation of musical structures, such as rhythmic meter, pitch intervals and cycles. The efficacy of these physical descriptions of basic musical elements was confirmed by the synthesis of small musical pieces within each frame: basic notes, incremented notes and notes in music. It is possible to synthesize whole albums through collage of the scripts and parameterization.
The sample-based analitical description, and the paradigm of open source implementation, enables cientific experiments in precise and trustful ways. In fact, \massa\ has already been employed by external users for diverse purposes. Among these, it is mentioned an acoustic effect recognized by diverse individuals in mailing lists but not found in literature, and uses related to art and education.
\end{abstract}
\pacs{*43.66.-x,43.66.+y,05.10.-a} % PACS, the Physics and Astronomy
\keywords{psychophysics, acoustics, statistics, signal processing, digital audio, music}
\maketitle
\section{\label{sec:level1}Introduction}
Representing musical structures and artifices by it's discrete sound characteristics is the purpuse of this work. The results include mathematical relations and it's computer program implementations. Next section exposes the theoretical description, which is implemented as scripts in a one-to-one relation to the equations.
\subsection{Sound and digital audio}
Sound is a longitudinal wave of mechanical pressure. The frequency bandwidth between $20Hz$ and $20kHz$ is appreciated by human hearing system with boudaries dependent on the person, climate conditions and sonic charachteristics itself~\cite{Roederer}. If considereded the speed of sound of $\approx 343.2 m/s$, this limits corresponds to $\frac{343.2}{20} = 17.16\,m$ and $\frac{343.2}{20000}=17.16\,mm$.
Human perception of sound envolves captivation by bones, stomach, ears, tranfer functions of head and processing dorso and nervous system. Besides that, the ear is a dedicated organ to the capture of this waves. Its mechanism decomposes sound into its sinusoidal spectrum and delivers them to the nervous system. This sinusoidal components are crucial to musical fenomena, as one can observe in the composition of sounds with musical interest and in tunnings and scales. Subsection~\ref{subsec:dicNote} exposes the presence of sinusoids in discrete-time audio and charachterizes a basic musical note.
The representation of sound is called audio (although these terms are often used without distinction), and this can be provenient from caption by microphones or from sythesis. Often enough, digital audio is specified by protocols that eases file storage and transfering, in cost of a direct representation or even some loss in quality. Standard representation of digital audio, on the other hand, consists of samples equally spaced by $\lambda_s$ durations in time, with each sample spacified by a sample number of bits. This is called the Pulse Code Modulation representation of sound (PCM). A PCM digital sound is charachterized by it's sampling frequency $f_s=\frac{1}{\lambda_s}$, also called sampling rate, and bit depth, which is the number of bits used of representing the amplitude of each sample. Figure~\ref{fig:PCM} shows $25$ samples of a PCM áudio with $4$ bits each. The $2^4=16$ possible steps for each sample, together with the regular spacing $\lambda_s$ between them, introduces a quantization error. This noise, caused by this errors, diminishes as these spacing diminishes.
\begin{figure*}
\centering
\includegraphics[width=\textwidth]{pcm}
\caption{Pulse Code Modulation (PCM) audio: an analogic signal is represented by 25 samples with 4 bits each.}
\label{fig:PCM}
\end{figure*}
By the Nyquist theorem, it is known that half the sampling frequency is the maximum frequency of the signal. Thus, it is necessary to have a sampling frequency at least twice the highest frequency heard by humans $f_s \geq 2\times 20kHz = 40kHz$. This is the basis for the use of the sampling frequencies $44.1kHz$ and $48kHz$, standards in Compact Disks (CD) and Broadcast systems (Radio and TV), respectively.
\subsection{Sonic art and musical theory}
A common definition for music is the art made by sounds and silences. For the average listener -- and a reasonable part of specialists -- the notion of music presupposes rhythmic and pitch organization such as explained in subsection~\ref{subsec:notesMusic}. Music from the twentieth century enlarged this traditional comprehension of music. This occured in concert music, specially in the concrete, electronic and electroacoustic styles. On the last decade of the century, it was evident that popular music has also incorporated sounds without defined pitch and temporal organization out of simple metrics. Even though, the note stands paradigmatic as a 'fundamental unit' of musical structures and, in practice, it can unfold in sounds that observe this recent developments. The definition and expansion of the musical note as the fundamental unit of music is approached in subsections~\ref{subsec:discNote} and~\ref{subsec:internalVar}, respectively. Subsection~\ref{subsec:notesMusic} tackles the organization of musical notes in a higher level~\cite{Wisnick,Webern,Lerdhal,Cook,Lacerda}.
Musical theory embody topics as diverse as psicho-acoustics, cultural manifestations and formalisms. The section~\ref{sec:results} point this topics as needed and designate external complements~\cite{Zamacois,Schoenberg,microsound}.
\subsection{Computational implementation}
The results presented in this article are implemented as scripts, i.e.\ small computer programs implemented using accessible technologies for better distribution and validation. This constitute the \massa\ toolbox, available in public domain in an open Git repository~\cite{gitBook}. This scripts are written in Python and make use of external libraries Numpy and Scikits/Audiolab that performs calls to Fortran routines for better computational efficiency. Part of this code has been trascribed to JavaScript and native Python with readiness, what points to uses of this contribution in Web browsers such as Firefox and Chromium~\cite{numpy, audiolab, tutpython, python}.
This are all open technologies, that is, published using licenses that allows copy, distribution and use of any part for research and derivatives. This way, the work here presented is available and eases co-authorship processes~\cite{Raymond,Lessig}.
\subsection{Objectives}
\label{subsec:objectives}
The main goal of this article is to present a concise set of relations among musical basic elements and sequences of PCM audio samples. The next section is a minimum text in which music elements are presented side-by-side with the discrete-time samples they result. As validation and sharing, implementations on computer code of these relations and little musical pieces where gathered the \massa\ toolbox, available online.
Secondary objectives include presenting a framework of sound synthesis with control at sample level, with potential uses in psychoacoustical experiments and high-fidelity synthesis. The didatic presentation of the content favours use and apprehension on a problem which calls diverse topics to be tackled: signal processing, music and psycho-acoustics, to name just a few.
\subsection{Related work}
Due to the general interest, and number of knowledge areas involved, there is a number of books and computer implementations that are of interest or present similarities to what is presented in this work. A more detailed comparrison of them is pointed out in the bibliography~\cite{dissertacao}. There is almost no articles which could be found on the topic. In summary, there are computer implementations that use this analitycal descriptions implicitly, but there is no such a concise and mathemathical description of the processes implemented, as they aim to be libraries for sound and music. There are books on the topic that cover various aspects of effects and physical modeling, but none of them carry a concise description of musical elements and structures, but focus on aspects of musical sounds and ways to mimic traditional instruments.
\section{Characterization of the discrete-time musical note}
In diverse artistic and theoretical contexts, music is though of as being constituted by units called notes and this units taken as "atoms" that constitute music itself~\cite{Wisnick, Lovelock, Webern}.
Nowadays, this notes are undestood as a central element of certain musical paradigms. In a cognitive sense, the notes are seen as discretizations that eases and enrich the flow of information through music~\cite{Roederer, Lacerda}.
Canonically, a musical note posses at least duration, volume, pitch and tibre~\cite{Lacerda}. These are qualities which can be managed quantitatively, dictated by the evenly time spaced sound samples.
All the relations on this section are implemented at the file \emph{eqs2.1.py} of the \massa\ toolbox. Musical pieces \emph{5 sonic portraits} and \emph{reduced-fi} are available online as proof of concept.
\subsection{Duration}
The sample frequency $f_s$ is defined as the number of samples in each second of the discrete-time signal. Let $T_i=\{t_i\}$ be an ordered set of real samples separated by $\delta_s=1/f_s$ seconds. A Musical note of duration $\Delta$ seconds is presented as a sequence of $\lfloor \Delta . f_s \rfloor $ samples. That is, taken the integer part of the multiplication, it is admited an error of at most $-\lambda_a$ seconds, which, for musical porpuses, are usually fine, for $f_s=44.1kHz \;\;\Rightarrow\;\;\lambda_s=\frac{1}{44100}\approx 23$ microseconds. It is reasonable to state:
\begin{equation}\label{eq:dur}
T_{i}^{\Delta}={\{t_i\}}_{i=0}^{\lfloor \Delta . f_a \rfloor -1}
\end{equation}
Being $\Lambda=\lfloor \Delta . f_a \rfloor$ the number of samples in the sequence, so that $T_i=\{t_i\}_0^{\Lambda-1}$.
\subsection{Volume}\label{subsec:volume}
The sensation of sound volume depends on reverberation and harmonic distribution, among other characteristics worked on section~\ref{sec:varInternas}. One can get variations of volume through the potency of the wave~\cite{Chowning}:
\begin{equation}\label{eq:potencia}
pot(T_i)=\frac{\sum_{i=0}^{\Lambda -1} t_i^2}{\Lambda}
\end{equation}
The final volume is dependent on the speakers amplification of the signal. Thus, what matters is the relative potency of a note in relation to the ones around it or the potency of a music section in relation to the rest. Differences in volume are measured in decibels, and these are calculated directly from the amplitudes through energy or potency:
\begin{equation}\label{decibels}
V_{dB}=10log_{10}\frac{pot(T^{'}_i)}{pot(T_i)}
\end{equation}
The quantity $V_{dB}$ has the decibel unit ($dB$).
To each $10dB$ it is associated a "doubled volume".
Handy references are the $10dB$ for each step in the intensity scale: \emph{pianissimo}, \emph{piano}, \emph{mezzoforte}, \emph{forte} e \emph{fortissimo}. Other useful references are que equivalent in $dB$ of doubling amplitude or potency:
\begin{equation}\label{eq:ampVol}
\begin{split}
t_i^{'}=2 . t_i \Rightarrow pot(T^{'}_i)=4 . pot(T_i) \Rightarrow \\ \Rightarrow V^{'}_{dB}=10log_{10} 4 \approx 6 dB
\end{split}
\end{equation}
\begin{equation}\label{eq:potVol}
\begin{split}
pot(T^{'}_i)=2 pot(T_i) \Rightarrow \\ \Rightarrow V^{'}_{dB}=10log_{10} 2 \approx 3 dB
\end{split}
\end{equation}
and the amplitude gain for a sequence whose volume has been doubled ($10dB$):
\begin{equation}\label{eq:dobraVol}
\begin{split}
10log_{10}\frac{pot(T^{'}_i)}{pot(T_i)} = 10 \quad \Rightarrow \\ \Rightarrow \quad \sum_{i=0}^{\lfloor \Delta.f_a \rfloor -1}t^{'2}_i=10\sum_{i=0}^{\Lambda-1}t_i^2=\sum_{i=0}^{\Lambda-1}(\sqrt{10}.t_i)^2 \\
\therefore \quad t^{'}_i=\sqrt{10}t_i \quad \Rightarrow \quad t^{'}_i \approx 3,16t_i
\end{split}
\end{equation}
Thus, it is necessary a little bit more than to triplicate the amplitude for a doubled volume. This values are guides for the increases and decreases on the absolute values on the sample sequences with musical purposes. The direct conversion from decibels to amplitude gain (or attenuation) is:
\begin{equation}\label{ampDec}
A = 10^{\frac{V_{dB}}{20}}
\end{equation}
Where $A$ is the mutiplicative factor that relates the amplitudes before and after the amplification.
\subsection{Pitch}
Recapitulating, the musical particle (note) is a sequence $T_i$ which duration and volume corresponds to the size of sequence and the amplitude of its samples. The pitch is specified by the fundamental frequency $f_0$ whose cycle has duration $\delta_{f_0}=1/f_0$. This duration, multiplied by the sampling frequency $f_s$ results on the number of samples of the cycle: $\lambda_{f_0}=f_a . \delta_{f_0} =f_a/f_0$.
For didatic reasons, be $f_0$ such that it divides $f_s$ and $\lambda_{f_0}$ results an integer. If $T_i^f$ is a sonic sequence of fundamental frequency $f$, then:
\begin{equation}\label{periodicidade}
T^f_i=\left\{ t_i^f \right\}=\left\{ t^f_{i+\lambda_{f}} \right\}= \left\{ t^f_{i+\frac{f_a}{f}} \right\}
\end{equation}
In the next secion, frequencies $f$ that does not divide $f_s$ will be considered. This restriction does not imply in lost of generality of this section's content.
\subsection{Timbre}
While the period of the wave corresponds to a fundamental frequency, the trajectory of the wave inside the period - called the waveform - defines a harmonic spectrum and, thus, a timbre\footnote{The timbre is a subjective and complex characteristic. Physicaly, the timbre is multidimentionsl and given by the temporal dinamics behavior of enegy in spectral components that are harmonic or noisy. Beyond that, the word timbre is used to designate different things: one same note has different timbres, a same instrument has different timbres, two intruments of the same family possesses the same timbre that blends them in the same family and different timbres as they are different instruments. It is worth to mention that not all that is associated to timbre is manifested in spectral traces, even cultural or circunstancial aspects alter our perception of timbre}. Musically, it matters that sonic spectra with minimum differences result in timbres with crucial expressive differences and that, hence, diffetent timbres can be produced by using different spectra\cite{Roederer}.
The simplest case (and most important, as the following texts shows) in that of the spectrum that consists only of the fundamental frequency $f$ itself. This is the sinusoid, frequency in pure oscilatory movement called 'simple harmonic movement'. Be $S_i^f$ a sequence whose samples $s_i^f$ describes a sibusoid of frequency $f$:
\begin{equation}\label{senoide}
S^f_i=\{ s^f_i \}=\Bigl\{ \sin\bigl(2\pi \frac{i}{\lambda_f} \bigr) \Bigr\} = \Bigl\{ \sin\bigl(2\pi f \frac{i}{f_a}\bigr) \Bigr\}
\end{equation}
Where $\lambda_f=\frac{f_a}{f}=\frac{\delta_f}{\lambda_a}$ is the number of samples in the period.
In a similar fashion, other waveforms are used in music because of its spectral qualities and simplicity. While the sinusoid is an isolated point in the spectrum, these waves present a succession of harmonic components. These waveforms are specified in equations~\ref{sinusoid},~\ref{sawTooth},~\ref{triangular} and~\ref{square} are in figure~\ref{fig:formasDeOnda}.
These artificial waveforms are traditionally used in music for synthesis and oscilatory control of variables, they also present diverse used outside music\cite{Openheim}.
The sawtooth present all components of the harmonic series, with decreasing energy of $-6dB/octave$. The sequence of temporal samples can be described like this:
\begin{equation}\label{sawTooth}
D^f_i=\left\{ d^f_i \right\}=\left\{ 2\frac{i\,\%\lambda_f}{\lambda_f} -1 \right\}
\end{equation}
The triangular waveform present only odd harminics falling with $-12dB/octave$:
\begin{equation}\label{triangular}
T^f_i=\left\{ t^f_i \right\}=\left\{1- \left| 2 - 4\frac{i\,\%\lambda_f}{\lambda_f} \right| \right\}
\end{equation}
The square wave presets only odd harmonics falling at $-6dB/octave$:
\begin{equation}\label{quadrada}
Q^f_i=\left\{ q^f_i \right\}= \left\{
\begin{array}{l l}
1 & \quad \text{for } \; \; (i\,\%\lambda_f) < \lambda_f /2 \\
-1 & \quad \text{otherwise}\\
\end{array} \right.
\end{equation}
The sawtooth is a common starting point for a subtractive synthesis, beacuse it has both odd and even harmonics with high energy. For musical intention, these waveforms are excessively rich in sharp harmonics and atenuant filtering on treble and midle parts of the spectrum is useful for reaching a more natural and pleasant sound.
The relativelly attenuated harmonics of the triangle wave makes it the more functional - among the listed ones - to be used in the synthesis of musical notes without any treatment.
The square wave can be used in a subtractive synthesis the aims to mimic a clarinet. This instrument has only the odd harmonic components and the square wave is convenient with its abundant energy in high frequencies.
\begin{figure*}
\centering
\includegraphics[width=\textwidth]{waveForms}
\caption{Basic musical waveforms. The synthetic waveforms are in (a) and the real waveforms are in (b).}
\label{fig:formasDeOnda}
\end{figure*}
Figure~\ref{fig:formasDeOnda} presents the waveforms described in equations ~\ref{senoide}, ~\ref{denteDeSerra}, ~\ref{triangular} and ~\ref{quadrada} for $\lambda_f=100$ (period of $100$ samples). If $f_s=44.1kHz$, as PCM standard in Compact Disks, the wave has fundamental frequency $f=\frac{f_a}{\lambda_f}=\frac{44100}{100} = 441 \; Herz$, an A4, just above the central "C", whatever the waveform is.
The spectrum of each basic waveform is in figure~\ref{fig:espectroDeondas}. The isolated and exaclty harmonic components of the spectrum is a consequence of the fixed period usage. The sinusoid consists of a one and only node in spectrum, pure frequency. The sawtooh is the only with a complete harmonic series (odd and even components). Triangular and square waves has the same components (odd harmonics), decaing at $-12dB/octave$ and $-6dB/octave$ respectivelly.
\begin{figure*}
\centering
\includegraphics[width=\textwidth]{waveSpectrum}
\caption{Spectrum of basic artificial musical waveforms.}
\label{fig:espectroDeOndas}
\end{figure*}
The harmonic spectrum is formed by frequencies multiple from the fundamental frequency $f_n=(n+1)f_0$. As the human linear perception of pitch follows the a geometric progression of frequencies, the spectrum has notes different from the fundamental frequency. Additionally, the number of harmonics will be limited to the maximum frequency $f_s/2$ (by Nyquist's theorem).
Musically crucial here is to internalize that energy in an component of frequency $f_n$ means an oscilation in the constitution of the sound, purely harmonic and in that frequency $f_n$. This energy, specificaly concentrated on the $f_n$ is separated by the ear to enter a cognitive level of processing (this separation is done in many species is mechanisms similar to the human cochlea)~\cite{Roederer}.
The sinusoidal components are usually the main responsibles for the quality we call timbre. If they are not presented in harmonic proportions (small number relations), the sound is perceived as noisy or dissonant and not as a sonority with a univocally stablished fundamental frequency. Furthermore, the notion of absolute pitch in a complex sonority is based relies on the similarity of the spectrum to the harmonic series~\cite{Roederer}.
In the case of a fixed length period and waveform, the spectrum is perfectly harmonic and static. Each waveform is compound of specific proportions of harmonic components and the greater the curvature of a the part, the greater the contribution of the part to the energy on the high harmonics. That can be seen on real sounds. The wave rotulated as ``sampled real sound'' in figure~\ref{fig:formasDeOnda} is a period of $\Lambda_f=114$ samples, extracted from a relatively well behaved real sound. The oboe wave was sampled of a A4 also in $44.1kHz$. The chose period for sampling was a relatively short, with $98$ samples, corresonds to the frequency $\frac{44100}{98}=450Hz$. It can be noticed, from the curvatures, the oboe's rich spectrum in high frequencies and the lower spectrum of the real sound.
The sequence
$ R_i=\{ r_i \}_0^{\lambda_f-1}$ of samples in the real sound of figure~\ref{fig:formasDeOnda} can be taken as a basis for a sound $T_i^f$ din the following way:
\begin{equation}\label{sampleandoFormaDeOnda}
T^f_i=\{ t_i^f \}=\Bigl\{ r_{(i\,\%\lambda_{f})} \Bigr\}
\end{equation}
The resulting sound has a the momentary spectrum of the original sound. Because it is repeated in an identical form, the spectrum is perfectly harmonic, withoud noise and variations tipical of the natural phenomenon. This can be seen in figure~\ref{fig:espectroOboe}, that show the spectrum of the original oboe note and a note with same duration and whose samples consists of the repetition of cycle of figure~\ref{fig:formasDeOnda}. The natural spectrum exibit variations in the frequencies of the harmonics, its intensities and some noise. The note made from the sampled period has a perfecly harmonic spectrum
\begin{figure*}
\centering
\includegraphics[width=\textwidth]{oboeNaturalSampledSpectrum}
\caption{Spectrum of the sonic waves of a natural oboe note and one made from a sampled period. The natural sound has fluctuations in the harmonics and in noise, while the sampled period note has a perfectly harmonic spectrum.}
\label{fig:espectroOboe}
\end{figure*}
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\subsection{Spectrum at sampled sound}
The presence and behaviour of these sinosoidal components in the discretized sound have particularities. Having a signal $T_i$ and its Fourier decomposition $\mathcal{F}\langle T_i\rangle=C_i=\{c_i\}_0^{\Lambda-1}$, the recomposition is the sum of frequential components as time samples\footnote{It is important to note that the factor $\frac{1}{\Lambda}$ could be distributed among the Fourier transform and its reconstruction, as prefered.}:
\begin{equation}\label{recomposicaoFourier}
t_i = \frac{1}{\Lambda}\sum_{k=0}^{\Lambda-1}c_ke^{j \frac{2\pi k}{\Lambda} i } = \frac{1}{\Lambda}\sum_{k=0}^{\Lambda-1}(a_k+ j . b_k)\left[cos(w_k i) +j . sen(w_k i)\right]
\end{equation}
Where $c_k = a_k + j . b_k$ defines the amplitude and phase of each frequency: $w_k=\frac{2\pi}{\Lambda}k$ in radians or $f_k=w_k\frac{f_a}{2\pi}=\frac{f_a}{\Lambda}k$ in Hertz, paying attention to the respective limits in $\pi$ and in $\frac{f_a}{2}$ given by the Nyquist Theorem.
For a sound signal, samples $t_i$ are real and are given by the real part of equation~\ref{recomposicaoFourier}:
\begin{equation}\label{moduloEfase}
\begin{split}
t_i& = \frac{1}{\Lambda}\sum_{k=0}^{\Lambda-1}\left[a_k cos(w_k i) -b_k sen(w_k i)\right] \\
& = \frac{1}{\Lambda}\sum_{k=0}^{\Lambda-1}\sqrt{a_k^2 + b_k^2} \; cos\left[w_k i - tg^{-1}\left(\frac{b_k}{a_k}\right)\right]
\end{split}
\end{equation}
Equation xxx shows how the imaginary term $c_k$ adds a phase to the real sinusoid, e.g.\ the imaginary terms $b_k$ from the Fourier spectral decomposition make possible the phase sweep $\left[-\frac{\pi}{2},+\frac{\pi}{2}\right]$ given by $tg^{-1}\left(\frac{b_k}{a_k}\right)$ which has this image. The signal from $a_k$ specify the right and left side of the trigonometric circle, complementing the phase sweeping: $\left[-\frac{\pi}{2},+\frac{\pi}{2}\right] \cup \left[\frac{\pi}{2},\frac{3\pi}{2}\right]\equiv [2\pi]$.
\begin{figure}[h!]
\centering
\includegraphics[width=\textwidth]{figuras/amostras2c__}
\caption{Oscillation for 2 samples (maximum frequency for any $f_a$). The first coefficient reflects a dettachment (\emph{offset} or \emph{bias}) and the second coefficient specifies the oscillation amplitude.}
\label{fig:amostras2}
\end{figure}
Figure~\ref{fig:amostras2} shows two samples and its spectral components. In this case, the Fourier decomposition has one unique pair of coefficients $\{c_k=a_k-j.b_k\}_0^{\Lambda-1=1}$ relatives to frequencies $\{f_k\}_0^1=\left\{w_k\frac{f_a}{2\pi}\right\}_0^1=\left\{k\frac{f_a}{\Lambda=2}\right\}_0^1=\left\{0,\frac{f_a}{2}=f_{\text{máx}}\right\}$
with energies $e_k=\frac{(c_k)^2}{\Lambda=2}$. The role of amplitudes $a_k$ is clearly observed with $\frac{a_0}{2}$, the fixed dettachment\footnote{Also called \emph{bias} or \emph{offset}.} and $\frac{a_1}{2}$, oscillation own amplitude given by the relation $f_k=k \frac{f_a}{\Lambda=2}$.
This case have special relevance. The minimum needed to represent an oscillation are 2 samples and it yelds the Nyquist frequency $f_{\text{máx}}=\frac{f_a}{2}$. That is the maximum frequency in a sound sampled with $f_a$ samples per second\footnote{Any sampled signal has this property, not only the digitalized sound.}.
All fixed sequences $T_i$ of only $3$ samples also have just $1$ frequency because their first harmonic has $1,5$ samples and exceeds the bottom limit of 2 samples, e.g.\ the frequency of the harmonic would exceed the Nyquist frequency: $\; \frac{2. f_a}{3} > \frac{f_a}{2} $.
The coefficients $\{c_k\}_0^{\Lambda-1=2}$ are present in 3 frequency components. One is relative to zero frequency ($c_0$), the other two ($c_1$ and $c_2$) have the same role for the reconstruction of sinusoid with $f=f_a/3$.
\begin{figure}[h!]
\centering
\includegraphics[width=\textwidth]{figuras/amostras3b}
\caption{Three fixed samples presents only one non-null frequency. $c_1=c_2^*$ and $w_1 \equiv w_2$.}
\label{fig:amostras3}
\end{figure}
$\Lambda$ real samples $t_i$ result in $\Lambda$ complex coefficients $c_k=a_k+j.b_k$. The coefficients $c_k$ are equivalent two by two, corresponding to the same frequencies and with same relevance\footnote{Equal real part and imaginary with inversed order: $a_{k1}=a_{k2}$ and $b_{k1}=-b_{k2}$. As consequence the modules are equal and phases have inversed order.}. Remembering that $f_k = k\frac{f_a}{\Lambda}, \; k \in \left\{0, ..., \left \lfloor \frac{\Lambda}{2} \right \rfloor \right\} $. When $k > \frac{\Lambda}{2}$, the frequency $f_k$ is mirrored by $\frac{f_a}{2}$ in this way: $f_k=\frac{f_a}{2} - (f_k-\frac{f_a}{2})=f_a-f_k=f_a - k\frac{f_a}{\Lambda}=(\Lambda-k)\frac{f_a}{\Lambda} \;\;\;\; \Rightarrow \;\;\;\; f_k\equiv f_{\Lambda-k} \; ,\;\; \forall \;\; k<\Lambda$.
The same could be observed in $w_k=f_k.\frac{2\pi}{f_a}$ and remembering the periodicity $2\pi$ it results in $w_k=-w_{\Lambda-k}$. Given the cosine as as a even function and the inverse tangent as odd function, the components in $w_k$ and $w_{\Lambda-k}$ sums up in the equationi that reconstructs the real samples willing equation~\ref{recomposicaoFourier}.
In other words, in a decomposition of $\Lambda$ samples, the $\Lambda$ given frequential components $\{c_i\}_0^{\Lambda-1}$ are equivalents in pairs.
Exception for $f_0$ and when having an even $\Lambda$, from $f_{\Lambda/2}=f_{\text{máx}}=\frac{f_a}{2}$ both components are isolated, e.g.\ there is any other component in frequency $f_0$ or $f_{\Lambda/2}$ (if even $\Lambda$) regarding itself.
It is true because $f_{\Lambda/2}=f_{(\Lambda-\Lambda/2) = \Lambda/2}$ and $f_0=f_{(\Lambda-0)=\Lambda}=f_0$.
Furthermore, these two frequencies (zero and maximum frequency) are not represented having phase variation, being strictly real. In this way, it is possible to conclude the number $\tau$ of equivalent coefficient pairs are:
\begin{equation}\label{coefsPareados}
\tau = \frac{\Lambda - \Lambda \% 2}{2} +\Lambda \% 2 -1
\end{equation}
and became clearly visible the equivalences ~\ref{equivalenciasFreqs}, ~\ref{equivalenciasModulos} and ~\ref{equivalenciasFases}:
\begin{equation}\label{equivalenciasFreqs}
f_{k}\equiv f_{\Lambda-k}\;, \;\; w_{k}\equiv-w_{\Lambda-k}\;\;\;, \quad \;\; \forall \quad 1 \leq k \leq \tau
\end{equation}
\begin{figure}[h!]
\centering
\includegraphics[width=\textwidth]{figuras/amostras4__}
\caption{Frequential components for 4 samples.}
\label{fig:amostras4}
\end{figure}
Having $a_k = a_{\Lambda -k}\;\;$ and $\;\;b_k = - b_{\Lambda -k}$:
\begin{equation}\label{equivalenciasModulos}
\sqrt{a_k^2 + b_k^2} = \sqrt{a_{\Lambda - k}^2 + b_{\Lambda -k}^2} \;\;, \quad \;\; \forall \quad 1 \leq k \leq \tau \\
\end{equation}
\begin{equation}\label{equivalenciasFases}
tg^{-1}\left(\frac{b_k}{a_k}\right)=-tg^{-1}\left(\frac{b_{\Lambda -k}}{a_{\Lambda - k}}\right)\;\;,\quad \;\; \forall \quad 1 \leq k \leq \tau
\end{equation}
Having $k \in \mathbb{N}$.
The observation for the real signal reconstruction equation~\ref{moduloEfase} together with modules and phases equivalences~\ref{equivalenciasModulos} and~\ref{equivalenciasFases}, the number of paired coefficients~\ref{coefsPareados} and equivalence of paired frequencies~\ref{equivalenciasFreqs} expose a general case for components combination in each sample $t_i$:
\begin{equation}\label{eq:reconsCompleta}
t_i = \frac{a_0}{\Lambda} + \frac{2}{\Lambda}\sum_{k=1}^{\tau}\sqrt{a_k^2 + b_k^2} \; cos\left[w_k i - tg^{-1}\left(\frac{b_k}{a_k}\right)\right]+ \frac{ a_{\Lambda/2}}{\Lambda}.(1-\Lambda\% 2)
\end{equation}
\begin{figure}[h!]
\centering
\includegraphics[width=\textwidth]{figuras/amostras4formas__}
\caption{Basic wave forms for 4 samples.}
\label{fig:formas4}
\end{figure}
Therefore, as in Figure~\ref{fig:amostras3}, the Fourier transform of 3 samples have 2 frequential coefficients with same amount of energy in the same frequency.
With 4 samples it is possible to represent 1 or 2 frequencies with any proportions. Figure~\ref{fig:amostras4} shows wave forms for 4 samples and its two components. The individual contributions sums together yielding the original wave form and a brief inspection reveals the major curvatures resulting from the higher frequency, while a fixed dettachment of component summation results from the zero frequency component.
\begin{figure}[h!]
\centering
\includegraphics[width=\textwidth]{figuras/amostras6}
\caption{Frequential components for 6 samples: 3 sinosoids sums with \emph{bias}.}
\label{fig:amostras6}
\end{figure}
Figure~\ref{fig:formas4} shows harmonics for 4 samples in basic wave forms of equations ~\ref{senoide}, ~\ref{denteDeSerra}, ~\ref{triangular} and ~\ref{quadrada}. All together results in only 1 sinusoid, with exception to sawtooth wave which have even harmonics.
Figure~\ref{fig:amostras6} presents a sinusoidal decomposition for the 6 samples case and figure~\ref{fig:formas6} decompose the basic wave forms.
In this case all wave forms are different in spectrum: square and triangular ones have the same components but with different proportions, while the sawtooth have an extra component.
\begin{figure}[h!]
\centering
\includegraphics[width=\textwidth]{figuras/amostras6formas___}
\caption{Basic wave forms for 6 samples: triangular and square wave forms have odd harmonics, with different proportions and phases; the sawtooth wave form also has even harmonics.}
\label{fig:formas6}
\end{figure}
\subsection{The basic note}\label{notaBasica}
%% Seja $f$ tal que $f$ divida $f_a$\footnote{Como apontado anteriormente, esta limitação facilita a exposição sem perda de generalidade.
%% A limitação será superada no início da próxima seção.}.
%% Uma sequência $T_i$ de amostras sonoras separadas por $\delta_a=1/f_a$ descreve uma nota musical de frequência $f$ Hertz e duração $\Delta$ segundos se, e somente se, possuir a periodicidade $\lambda_f=f_a/f$
%% e tamanho $\Lambda=\lfloor f_a . \Delta \rfloor $:
%% \begin{equation}\label{eq:notaBasica}
%% T_i^{f,\; \Delta}=\{t_{i \, \% \lambda_f} \}_0^{\Lambda-1}= \left \{t^f_{i \; \% \left( \frac{f_a}{f} \right) } \right \}_0^{\Lambda-1}
%% \end{equation}
%% A nota por si só não especifica um timbre. Mesmo assim, faz-se necessária a escolha de uma forma de onda para que as amostras $t_i$ tenham um valor estabelecido individualmente. Um único período dentre as ondas básicas pode ser utilizado para a especificação da nota da seguinte forma:
%% $\lambda_f=\frac{f_a}{f}$ é o número de amostras do período. Seja $L_i^{f,\, \delta_f} $
%% a sequência que descreve um período da onda $L_i^f \in \{S_i^f,Q_i^f,T_i^f,D_i^f,R_i^f \}$ de duração
%% $\delta_f=1/f$, dadas pelas equações ~\ref{senoide}, ~\ref{denteDeSerra}, ~\ref{triangular} e ~\ref{quadrada} e onde $R_i^f$ é
%% uma onda real amostrada:
%% \begin{equation}\label{periodoUnico}
%% L_i^{f , \delta_f } = \left\{ l_i^f \right\}_0^{\delta_f . f_a -1}=\left\{ l_i^f \right\}_0^{\lambda_f-1}
%% \end{equation}
%% Então a sequência $T_i$ consistirá em uma nota de duração $\Delta$ e frequência $f$ se:
%% \begin{equation}\label{eq:notaBasicaTimbre}
%% T_i^{f,\; \Delta}=\left\{t_i^f\right\}_0^{\lfloor f_a . \Delta \rfloor -1}=\left \{ l^f_{i\,\%\left(\frac{f_a}{f}\right)} \right \}_0^{\Lambda-1}
%% \end{equation}
%% \subsection{Localização espacial e espacialização}\label{subsec:spac}
%% Embora não seja uma das quatro qualidades básicas tradicionais de uma nota musical, esta possui sempre uma localização espacial, que é a posição da fonte que a emitiu, no espaço físico tridimensional ordinário. Além disso, há um ambiente que reverbera a nota emitida, assunto ao qual a 'espacialização' é dedicada. Ambas, a espacialização e a localização espacial, são bastante valorizadas
%% por audiófilos e pela indústria fonográfica.\cite{floEsp}
%% \subsubsection{Localização espacial}
%% Acredita-se que a percepção da localização espacial do som se dê em nosso sistema nervoso através destas
%% três informações: o atraso de chegada do som entre um ouvido e o outro, a diferença de intensidade do som direto em cada ouvido e a
%% filtragem realizada pelo corpo, incluindo tórax, cabeça e orelhas.\cite{Roederer, hrtf, Heeger}
%% \begin{figure}[h!]
%% \centering
%% \includegraphics[width=.5\textwidth]{figuras/espacializacao___}
%% \caption{Detecção de localização espacial de fonte sonora: esquema utilizado para cálculo da diferença de tempo interaural (DTI) e da diferença de intensidade interaural (DII).}
%% \label{fig:spac}
%% \end{figure}
%% Se consideradas somente as incidências diretas em cada ouvido, as equações são simples. Dada a separação $\zeta$ entre os ouvidos\footnote{Constata-se que $\zeta \approx 21,5cm$ para um humano adulto.},
%% um objeto localizado em $(x,y)$ conforme a figura~\ref{fig:spac}
%% está distante de cada ouvido:
%% \begin{equation}\label{eq:distOuvidos}
%% \begin{split}
%% d & =\sqrt{\left (x-\frac{\zeta}{2} \right )^2+y^2} \\
%% d' & =\sqrt{\left (x+\frac{\zeta}{2} \right )^2 + y^2}
%% \end{split}
%% \end{equation}
%% e cálculos imediatos resultam na Diferença de Tempo Interaural:
%% \begin{equation}\label{eq:dti}
%% DTI=\frac{d'-d}{v_{som\;no\;ar}\approx 343.2 }\quad \text{segundos}
%% \end{equation}
%% e na Diferença de Intensidade Interaural:
%% \begin{equation}\label{eq:dii}
%% DII=20\log_{10}\left (\frac{d}{d'}\right) \quad decibels
%% \end{equation}
%% Convertendo para amplitude, obtém-se $DII_a=\frac{d}{d'}$. A $DII_a$ pode
%% ser utilizada como constante multiplicativa do canal direito de um sinal sonoro estéreo: $\{t_i'\}_0^{\Lambda -1}=\{DII_a . t_i\}_0^{\Lambda -1}$. Pode-se utilizar a DII junto à DTI como adiantamento no tempo do canal direito com relação ao esquerdo, vínculo crucial para a localização em sons graves e em sonoridades percussivas.\cite{Heeger}
%% Considerando $\Lambda_{DTI}=\lfloor DTI . f_a \rfloor$:
%% \begin{equation}\label{eq:locImpl}
%% \begin{split}
%% \Lambda_{DTI} & = \left \lfloor \frac{d'-d}{343,2} f_a \right \rfloor \\
%% DII_a & = \frac{d}{d'} \\
%% \left\{t_{(i+\Lambda_{DTI})}'\right\}_{\Lambda_{DTI}}^{\Lambda+\Lambda_{DTI}-1} & =\left\{DII_a . t_i\right\}_0^{\Lambda-1} \\
%% \left\{t_i'\right\}_0^{\Lambda_{DTI}-1} & = 0
%% \end{split}
%% \end{equation}
%% Com $t_i$ o canal direito e $t_i'$ o canal esquerdo. Caso $\Lambda_{DTI} < 0 $, basta trocar $t_i$ por $t_i'$ e utilizar $\Lambda_{DTI}'= | \Lambda_{DTI} | $.
%% Embora consideravelmente simples até aqui, a localização espacial depende drasticamente de outras pistas. Pela
%% DTI e DII especifica-se somente o ângulo horizontal (azimutal) $\theta$ dado por:
%% \begin{equation}\label{eq:angulo}
%% \theta=\tan^{-1}\left ( \frac{y}{ x } \right )
%% \end{equation}
%% com $x,y$ tais como representados na figura~\ref{fig:spac}. Mesmo assim, há dificuldades quando $\theta$ incide sobre o chamado "cone de confusão" em que um mesmo par de especificações DTI, DII resultam de vários dos pontos
%% do cone. Nestes pontos, a inferência do ângulo azimutal depende especialmente da filtragem atenuante nos agudos, pois a cabeça interfere um tanto mais nas ondas mecânicas agudas do que nas graves.\cite{Heeger,hrtf} Também pertinente à audição de fonte lateral, quando o som é grave o suficiente, há uma difração e a onda chega ao ouvido $\approx 0,7ms$ depois.\cite{floEsp}
%% A figura~\ref{fig:spac} mostra também esta sombra acústica do crânio, importante para a percepção do ângulo azimutal da fonte no cone de confusão. O cone em si não foi disposto na figura pois não é exatamente um cone e suas dimensões precisas não foram encontradas na literatura visitada e não são facilmente concebíveis, dadas as filtragens e a difração dependente do espectro do som em si. De toda forma, o cone de confusão pode ser entendido como um cone com o ápice no meio da cabeça e saindo por cada uma das orelhas.\cite{hrtf}
%% Já a localização completa, incluindo distância e elevação da fonte sonora, é dada pela função de transferência de cabeça (HRTF - do inglês \emph{Head Related Transfer Function}).\cite{hrtf} Existem bases abertas e conhecidas de HRTF como a CIPIC e pode-se aplicar estas funções de transferência em um som por convolução (veja equação~\ref{eq:conv}).\cite{CIPIC} O corpo do indivíduo altera bastante as filtragens realizadas e existem técnicas para gerar HRTFs que sejam - como proposta - utilizáveis de forma universal.\cite{lazaSPA}
%% \subsubsection{Espacialização}
%% Já a espacialização é o resultado das reflexões e absorções do som nas superfícies do recinto/paisagem no qual a nota foi emitida. O som se propaga no ar a $\approx 343,2m/s$, e pode ser emitido da fonte com qualquer padrão de direcionalidade. Quando uma frente sonora encontra uma superfície, há uma reflexão. Nesta reflexão ocorrem tanto 1) a inversão da componente da velocidade de propagação que é perpendicular à superfície, quanto 2) a absorção de energia, especialmente nos agudos. As ondas se propagam até atingirem níveis inaudíveis. Quando alguma frente de onda atingir o ouvido, pode ser descrita com o momento de chegada ao ouvido e os filtros de absorção de cada superfície que atingiu. Pode-se simular reverberações não possíveis em sistemas reais. Para experimentações, pode-se usar reflexões assimétricas com relação ao eixo perpendicular à superfície, ou ainda ganhos em determinadas bandas de frequência (tidos como 'ressonâncias'), ambas as características não são encontradas em sistemas reais.
%% Existem algumas modelagens de reverberação menos atreladas ao cálculo de cada reflexão, exploram informações valiosas do ponto de vista auditivo. De fato, a reverberação pode ser modelada com um conjunto de 2 características temporais e no espectro:
%% \begin{itemize}
%% \item Primeiro período: as 'primeiras reflexões' são mais intensas e esparsas.
%% \item Segundo período: a 'reverberação tardia' é praticamente uma sucessão densa de atrasos indistintos com um decaimento exponencial e ocorrências estatísticas.
%% \item Primeira banda: o grave possui algumas frequências de ressonância relativamente espaçadas.
%% \item Segunda banda: o médio e agudo possuem um decaimento progressivo e suave com flutuações estatísticas.
%% \end{itemize}
%% Smith III aponta que boas salas de concerto possuem um tempo total de reverberação de aproximadamente $1,9$ segundos. Aponta também o período das primeiras reflexões de $0,1$ segundos. Estas quantidades sugerem que, nas condições contempladas, há frentes de onda perceptíveis que se propagam até $652,08$ metros ($83,79k$ amostras em $f_a=44,1kHz$) antes de atingirem o ouvido. Além disso, as reflexões do som formam, após a propagação por $34,32$ metros ($4,41k$ amostras em $f_a=44,1kHz$ ), um emaranhado cujas incidências são pouco distintas na audição. Estas primeiras reflexões são particularmente importantes para a sensação de espaço. A primeira incidência é o som direto, descrito por DTI e DII das equações~\ref{eq:dti} e~\ref{eq:dii}. Admitindo que cada uma das primeiras reflexões, antes de chegar ao ouvido, se propagará, ao menos, $3-30m$ dependentes das dimensões da sala, a separação entre as primeiras reflexões é de, ao menos, $8-90$ milissegundos ($\approx 350-4000$ amostras em $f_a=44.1kHz$). Verifica-se experimentalmente que o número de reflexões aumenta em proporção quadrática $ \approx k.n^2$. Apontamentos do uso de convoluções e filtragens para facilitar estas implementações estão na subseção~\ref{subsec:mus2}, especialmente nos parágrafos sobre reverberação.
%% \subsection{Usos musicais}\label{subsec:basMus}
%% A partir da nota básica, cabe realizar estruturas musicais com
%% sequências destas partículas. A soma dos elementos de mesmo índice de $N$ sequências $T_{k,i}=\{t_{k,i}\}_{k=0}^{N-1}$ de mesmo tamanho $\Lambda$ resulta em seus conteúdos espectrais sobrepostos em um processo de mixagem sonora:
%% \begin{equation}\label{eq:mixagem}
%% \{t_i\}_0^{\Lambda-1}=\left \{ \sum_{k=0}^{N-1}t_{k,i} \right \}_0^{\Lambda-1}
%% \end{equation}
%% \begin{figure}[h!]
%% {\centering
%% \includegraphics[width=\textwidth]{figuras/mixagem}}
%% \caption{Mixagem de três sequências sonoras. As amplitudes são sobrepostas diretamente.}
%% \label{fig:mixagem}
%% \end{figure}
%% A figura~\ref{fig:mixagem} ilustra este processo de superposição de ondas sonoras discretizadas. A figura dispõe 100 amostras, de onde pode-se concluir que, se $f_a=44.1kHz$, as frequências da dente de serra, da onda quadrada e da senoide são,
%% respectivamente, $\frac{f_a}{100/2}=882Hz$, $\frac{f_a}{100/4}=1764Hz$ e $\frac{f_a}{100/5}=2205Hz$. A duração do trecho é bastante curto $\frac{f_a=44.1kHz}{100} \approx 2 \text{ milissegundos}$. Basta completar com zeros para somar sequências de tamanhos diferentes.
%% As notas mixadas são em grande parte separadas pelo ouvido por leis físicas de ressonância e pelo sistema nervoso.\cite{Roederer} O resultado da mixagem de notas musicais é a harmonia musical, cujos intervalos entre as frequências e os acordes de notas simultâneas regem aspectos subjetivos e abstratos da música e sua apreciação.\cite{Harmonia}
%% As sequências podem também ser concatenadas no tempo. Caso as sequências $\{t_{k,i}\}_0^{\Lambda_k-1}$ de tamanhos $\Lambda_k$ representem $k$ notas musicais, sua concatenação em uma única sequência $T_i$ é em uma sequência musical simples ou melodia:
%% \begin{equation}\label{eq:concatenacao}
%% \{t_i\}_0^{\sum\Delta_k-1}=\{t_{l,i}\}_0^{\sum\Delta_k-1}, \;\; l\text{ menor inteiro } : \quad \Lambda_l > i -\sum_{j=0}^{l-1}\Lambda_j
%% \end{equation}
%% Este mecanismo é demonstrado de forma ilustrativa na figura~\ref{fig:concatenacao} com as mesmas sequências da figura ~\ref{fig:mixagem}.
%% As sequências são curtas para as taxas de amostragem usuais, mas pode-se observar a concatenação de sequências sonoras. Além disso, cada nota tem a duração maior que $100ms$ se $f_a<1kHz$.
%% \begin{figure}[h!]
%% { \centering
%% \includegraphics[width=\textwidth]{figuras/concatenacao}}
%% \caption{Concatenação de três sequências sonoras através da justaposição temporal de suas amostras.}
%% \label{fig:concatenacao}
%% \end{figure}
%% A montagem musical \emph{reduced-fi} explora de forma isolada este uso de justaposição temporal das notas, resultando em uma peça homofônica. O princípio vertical está demonstrado nos \emph{quadros sonoros}, sons estáticos com espectros peculiares. Ambas as peças estão em código Python nos Apêndices~\ref{ap:quadros} e~\ref{ap:reduced} e estão disponíveis como parte da \emph{toolbox} \massa.\cite{MASSA}
%% Está descrita a nota musical digital básica e a seção seguinte desenvolve a evolução temporal de seus conteúdos, como nos \emph{glissandi} e nas envoltórias de volume. A filtragem de componentes espectrais e a geração dos ruídos completam a constituição da nota musical como unidade isolada e se desdobra na seção~\ref{notasMusica}, dedicada à estruturação destas notas em música através de métricas e trajetórias.
%% \afterpage{\blankpage}
%% \clearpage
%% \section{Variações na nota musical básica}\label{varInternas}
%% A nota musical digital básica foi definida na seção~\ref{sec:notaDisc} com os parâmetros:
%% duração, altura, intensidade (volume) e timbre. Esta é uma modelagem
%% útil e paradigmática, mas não esgota o que se entende por
%% uma nota musical.
%% Em primeiro lugar, as características da nota se modificam no decorrer
%% da própria nota.\cite{Chowning} Por exemplo, uma nota de piano
%% de 3 segundos tem a intensidade com início abrupto e decaimento progressivo,
%% além de variações do espectro, com harmônicos que
%% decaem antes dos outros e alguns que aparecem com o tempo.
%% Estas variações não são obrigatórias e sim orientações da
%% síntese sonora para usos musicais, pois é como os sons
%% se apresentam na natureza\footnote{A regra de ouro
%% aqui é: para que um som isolado desperte interesse
%% por si só, faça com que tenha variações internas.\cite{Roederer}}.
%% Explorar todas as formas pelas quais estas variações ocorrem está fora
%% do escopo de qualquer trabalho dada a considerável sensibilidade do ouvido humano
%% e a complexidade da nossa cognição sonora. A seguir, serão apontados
%% recursos primários para estas variações das características na nota
%% básica.
%% Todas as relações descritas nesta seção estão implementadas em Python no Apêndice~\ref{sec:cod2}. As montagens musicais \emph{Transita para metro}, \emph{Vibra e treme}, \emph{Tremolos, vibratos e a frequência}, \emph{Trenzinho de caipiras impulsivos}, \emph{Ruidosa faixa}, \emph{Bela rugosi}, \emph{Chorus infantil}, \emph{ADa e SaRa} estão nos Apêndices~\ref{ap:transita}, \ref{ap:vibra}, \ref{ap:tremolos}, \ref{ap:trenzinho}, \ref{ap:ruidosa}, \ref{ap:bela}, \ref{ap:chorus} e \ref{ap:ada}. Estes códigos são parte da caixa de ferramentas \massa, disponível online.\cite{MASSA}
%% \subsection{Tabela de busca}\label{subsec:lookup}
%% Mais conhecida pelo termo em inglês, a \emph{Lookup Table} (ou simplesmente
%% LUT), é uma estrutura de dados para
%% consultas indexadas usada
%% frequentemente para reduzir a complexidade computacional
%% e por
%% permitir o uso de funções sem possibilidade de cálculo direto, como
%% amostras recolhidas da natureza.
%% Na música seu uso transcende estes
%% primeiros, facilitando as operações e permitindo que um único
%% período de onda possa ser usado para sintetizar sons em toda a banda
%% de frequências audíveis, qualquer que seja a forma de onda amostrada.
%% \begin{figure}[h!]
%% \centering
%% \includegraphics[width=\textwidth]{figuras/lut}
%% \caption{Procedimento de busca em tabela (conhecido como \emph{Lookup Table}) para síntese de sons em frequências diferentes a partir de uma única forma de onda em alta resolução.}
%% \label{fig:lut}
%% \end{figure}
%% Seja $\widetilde{\Lambda}$ o tamanho
%% do período e $\widetilde{L_i} = \left\{\, \widetilde{l}_i \,\right\}_0^{\widetilde{\Lambda} -1}$ os elementos $\widetilde{l_i}$ de um
%% período de onda qualquer (veja equação ~\ref{periodoUnico}). Uma sequência
%% $T_i^{f,\,\Delta}$ com amostras de um som de frequência $f$ e duração $\Delta$
%% pode ser obtida a partir de $\widetilde{L_i}$ da seguinte forma:
%% \begin{equation}\label{eq:lut}
%% T_i^{f,\,\Delta}=\left\{t_i^f\right\}_0^{\lfloor \, f_a . \Delta \, \rfloor -1} = \left\{ \, \widetilde{l}_{\gamma_i \% \widetilde{\Lambda} }\, \right\}_{0}^{\Lambda-1}\; , \quad \text{onde} \;\; \gamma_i = \left \lfloor i . f \frac{ \widetilde{\Lambda}}{f_a} \right \rfloor
%% \end{equation}
%% Ou seja, com os índices corretos ($\gamma_i\%\widetilde{\Lambda}$)
%% da LUT, pode-se sintetizar o som em qualquer frequência.
%% A figura~\ref{fig:lut} ilustra
%% o cálculo de uma amostra de $\{t_i\}$
%% a partir de $\left\{\,\widetilde{l}_i\,\right\}$ para uma frequência
%% de $f=200Hz$, $\widetilde{\Lambda}=128$ e considerada a taxa de amostragem em $f_a=44.1kHz$.
%% Esta não é uma configuração praticável, como assinalado abaixo, mas possibilita uma
%% disposição gráfica do procedimento.
%% O cálculo do inteiro $\gamma_i$ introduz um ruído,
%% e este diminui com o aumento de $\widetilde{\Lambda}$.
%% Para fins de síntese, em $f_a=44.1 kHz$
%% o padrão é usar $\widetilde{\Lambda} = 1024$ amostras, pois já não gera ruído
%% relevante no espectro audível. O método de arredondamento ou interpolação não é decisivo.\cite{Geiger}
%% A expressão que define a variável $\gamma_i$ pode ser compreendida da
%% seguinte forma: $i$ é acrescida de $f_a$ a cada $1$ segundo.
%% Caso seja dividida pela frequência de amostragem, resulta $\frac{i}{f_a}$,
%% que é acrescida de $1$ a cada $1$ segundo. Multiplicada pelo comprimento do período, resulta $i \frac{\widetilde{\Lambda}}{f_a}$
%% que varre o
%% período em $1$ segundo. Por fim,
%% com a frequência $f$, resulta $i . f \frac{\widetilde{\Lambda}}{f_a}$
%% que completa $f$ varreduras do período $\widetilde{\Lambda}$ em $1$ segundo, i.e. a sequência
%% resultante apresenta a frequência fundamental $f$.
%% Importantes considerações: $f$ é qualquer, só há limitantes nas frequências
%% graves quando o tamanho da tabela $\widetilde{\Lambda}$ não é suficientemente grande para a taxa de amostragem
%% $f_a$. O procedimento de busca em tabela
%% é computacionalmente bastante barato, substituindo cálculos por buscas simples (por isso geralmente
%% é entendido como um processo de otimização). Salvo quando assinalado,
%% no texto que usará este procedimento para todos os casos cabíveis pois
%% simplifica as rotinas e é computacionalmente coerente.
%% O uso de LUTs é bastante difundido nas implementações computacionais
%% voltadas para música e um uso clássico que explora com ênfase
%% as LUTs na síntese sonora musical, é a chamada
%% \emph{Wavetable Synthesis} que consiste em várias LUTs utilizadas em
%% conjunto através da mixagem para gerar uma nota musical quasi-periódica.~\cite{Cook,Wavetable}.
%% \subsection{Variações incrementais de frequência e intensidade}\label{subsec:vars}
%% Segundo a lei de Weber e Fechner, a percepção humana tem uma relação logarítmica com
%% o estímulo que a causa.\cite{Weber-Fechner} Em outras palavras, um estímulo em progressão exponencial
%% é percebido como linear.
%% Por razões didáticas e dado o uso nas AM e FM (veja subseção~\ref{subsec:tvaf}), a variação linear será abordada primeiro.
%% Em uma nota de duração $\Delta = \frac{\Lambda}{f_a}$, a frequência $f=f_i$ varia de $f_0$ até $f_{\Lambda -1}$
%% linearmente. Pode-se escrever:
%% \begin{equation}\label{freqLinear}
%% F_i=\{f_i\}_0^{\Lambda-1}=\left\{f_0 + (f_{\Lambda-1}-f_0)\frac{i}{\Lambda-1} \right\}_0^{\Lambda-1}
%% \end{equation}
%% \begin{equation}\label{indiceLinear}
%% \Delta_{\gamma_i}=f_i\frac{\widetilde{\Lambda}}{f_a} \quad \Rightarrow \quad \gamma_i=\left \lfloor \sum_{j=0}^{i} f_j\frac{\widetilde{\Lambda}}{f_a} \right \rfloor =\left \lfloor \sum_{j=0}^{i} \frac{\widetilde{\Lambda}}{f_a} \left [f_0 + (f_{\Lambda-1}-f_0)\frac{j}{\Lambda-1} \right ] \right \rfloor
%% \end{equation}
%% \begin{equation}\label{serieAmostralLin}
%% \left\{t_i^{\;\overline{f_0,\, f_{\Lambda-1}}}\right\}_0^{\Lambda-1}=\left\{\,\widetilde{l}_{\gamma_i \% \widetilde{\Lambda}}\,\right\}_0^{\Lambda-1}
%% \end{equation}
%% Onde $\Delta_{\gamma_i}=f_i\frac{\widetilde{\Lambda}}{f_a}$ é o incremento da LUT entre duas amostras dada a frequência do som na primeira amostra.
%% Desta forma, pode-se calcular os elementos $t_i^{\;\overline{f_0,f_{\Lambda-1}}}$
%% com base no período $\left\{\widetilde{l}_i\right\}_0^{\Lambda-1}$.
%% As equações \ref{freqLinear}, \ref{indiceLinear} e \ref{serieAmostralLin} são relativas à progressão linear
%% da frequência. Como assinalado para o caso geral, também aqui
%% uma progressão de frequência
%% \emph{percebida} como linear segue uma progressão exponencial\footnote{Ou,
%% dito ainda de outra forma, uma progressão geométrica da frequência
%% é percebida como uma progressão aritmética de alturas.}.
%% Pode-se escrever que: $f_i=f_0 . 2^{\frac{i}{\Lambda-1} n_8}$ onde
%% $n_8=\log_2\frac{f_{\Lambda-1}}{f_0}$ é o número de oitavas entre $f_0$ e $f_{\Lambda-1}$.
%% De forma que $f_i=f_0 . 2^{\frac{i}{\Lambda-1}\log_2\frac{f_{\Lambda-1}}{f_0}}=
%% f_0 . 2^{\log_2\left ( \frac{f_{\Lambda-1}}{f_0} \right )^{\frac{i}{\Lambda-1}}}=
%% f_0 \left ( \frac{f_{\Lambda-1}}{f_0} \right ) ^{\frac{i}{\Lambda -1}}$. Portanto,
%% as equações de transições de frequência
%% lineares para o ouvido são:
%% \begin{equation}\label{freqExponencial}
%% F_i=\{f_i\}_0^{\Lambda-1}=\left\{f_0 \left ( \frac{f_{\Lambda-1}}{f_0} \right ) ^{\frac{i}{\Lambda -1}} \right\}_0^{\Lambda-1}
%% \end{equation}
%% \begin{equation}\label{indiceExponencial}
%% \Delta_{\gamma_i}=f_i\frac{\widetilde{\Lambda}}{f_a} \quad \Rightarrow \quad \gamma_i=\left \lfloor \sum_{j=0}^{i} f_j\frac{\widetilde{\Lambda}}{f_a} \right \rfloor =\left \lfloor \sum_{j=0}^{i} f_0 \frac{\widetilde{\Lambda}}{f_a} \left ( \frac{f_{\Lambda-1}}{f_0} \right ) ^{\frac{j}{\Lambda -1}} \right \rfloor
%% \end{equation}
%% \begin{equation}\label{serieAmostralLog}
%% \left\{t_i^{\;\overline{f_0,\,f_{\Lambda-1}}}\right\}_0^{\Lambda-1}=\left\{\,\widetilde{l}_{\gamma_i \% \widetilde{\Lambda}}\,\right\}_0^{\Lambda-1}
%% \end{equation}
%% \begin{figure}[h!]
%% \centering
%% \includegraphics[width=\textwidth]{figuras/transicao}
%% \caption{Transições de intensidade para diferentes valores de $\alpha$ (veja equações~\ref{seqAmp} e ~\ref{transAmp}).}
%% \label{fig:transicao}
%% \end{figure}
%% O termo $\frac{i}{\Lambda-1}$ varre o intervalo $[0,1]$ e pode-se elevá-lo a uma potência
%% para que o início da transição seja mais suave ou abrupto.
%% Este procedimento é útil para variações de energia
%% da onda vibratória para alteração do volume\footnote{A mudança do volume (qualidade psicofísica) ocorre através de diferentes características
%% do som, como a reverberação e a concentração de harmônicos agudos, dentre as quais está a energia da onda.
%% A manipulada com mais facilidade é a energia da onda (veja equação~\ref{eq:potencia}) e esta também pode variar de diferentes formas.
%% Uma forma mais simples é variar a amplitude através da multiplicação da sequência toda
%% por um número real. O aumento de energia sem variação de
%% amplitude é a \emph{compressão sonora}, útil na
%% produção musical atual.\cite{guillaume}}. Basta multiplicar a sequência original
%% (seja ela gerada ou pré-estabelecida) pela sequência $a_{\Lambda-1}^{\left( \frac{i}{\Lambda-1} \right )^\alpha}$
%% onde $\alpha$ é o coeficiente citado e $a_{\Lambda-1}$ é fração da amplitude original que se visa atingir ao final da transição.
%% Assim, para variações de amplitude:
%% \begin{equation}\label{seqAmp}
%% \{a_i\}_0^{\Lambda-1}=\left \{ a_0 \left ( \frac{a_{\Lambda-1}}{a_0} \right )^{\left ( \frac{i}{\Lambda-1} \right )^\alpha} \right \}_0^{\Lambda-1}=\left \{ \left ( {a_{\Lambda-1}} \right )^{\left ( \frac{i}{\Lambda-1} \right )^\alpha} \right \}_0^{\Lambda-1} \text{ com } a_0=1
%% \end{equation}
%% \begin{equation}\label{transAmp}
%% T_i^{'}=T_i \odot A_i = \{t_i . a_i\}_0^{\Lambda-1}=\left \{ t_i . (a_{\Lambda-1} )^{\left ( \frac{i}{\Lambda-1} \right )^\alpha} \right \}_0^{\Lambda-1}
%% \end{equation}
%% Pode-se tomar $a_0=1$ para iniciar a nova sequência com a amplitude original e então ir modificando com o decorrer das amostras.
%% Esta restrição faz com que o termo $a_{\Lambda-1}$ seja a variação da amplitude.
%% Caso $\alpha=1$, a variação de amplitude segue exatamente a progressão geométrica que caracteriza
%% a percepção linear. A figura~\ref{fig:transicao} exibe as transições para diferentes valores de $\alpha$ e para a transição entre os valores $1$ e $2$, um ganho de $\approx 6dB$ segundo a equação~\ref{eq:ampVol}.
%% Algum cuidado é necessário para lidar com $a=0$.
%% Na equação~\ref{seqAmp}, se $a_0=0$ há divisão por zero e
%% se $a_{\Lambda-1}=0$, há uma multiplicação por zero. Ambos os casos
%% tornam o procedimento inútil pois nenhum número diferente de zero pode ser representado como uma proporção com relação ao zero. Pode-se resolver isso escolhendo um número suficientemente pequeno como $-80dB\;\Rightarrow a=10^{\frac{-80}{20}}=10^{-4}$ como o volume mínimo no caso de um
%% \emph{fade in} ($a_0=10^{-4}$) ou de um \emph{fade out} ($a_{\Lambda-1}=10^{-4}$).
%% Para uma amplificação linear, mas não linear para a percepção, basta usar uma sequência $\{a_i\}$ adequada:
%% \begin{equation}\label{seqAmpLin}
%% a_i=a_0 + (a_{\Lambda-1}-a_0)\frac{i}{\Lambda-1}
%% \end{equation}
%% Aqui convém a conversão de decibels para amplitude. Assim, as equações ~\ref{ampDec} e \ref{transAmp}
%% especificam a transição de $V_{dB}$ decibels:
%% \begin{equation}\label{seqAmpDB}
%% T_i^{'}=\left\{ t_i 10^{\frac{V_{dB}}{20}\left( \frac{i}{\Lambda-1} \right)^\alpha} \right\}_0^{\Lambda-1}
%% \end{equation}
%% para o caso geral de variações de amplitude segundo a progressão geométrica. Quanto maior o valor de $\alpha$, mais suave é a introdução do som e mais intenso o final da transição. $\alpha>1$ resulta em transições de volume muitas vezes chamadas de \emph{slow fade} enquanto $\alpha<1$ resulta em \emph{fast fade}.\cite{guillaume}
%% As transições lineares serão usadas para
%% as sínteses AM e FM e a aplicação das transições
%% logarítmicas para os tremolos e vibratos.
%% Uma exploração não oscilatória destas variações
%% está na montagem musical \emph{Transita para metro},
%% cujo código está no Apêndice~\ref{ap:transita} e online
%% na \massa.\cite{MASSA}
%% \subsection{Aplicação de filtros digitais}\label{subsec:filtros}
%% Esta subseção limita-se a uma descrição
%% do processamento das sequências, por convolução
%% e equação a diferenças, e em aplicações
%% imediatas, pois a complexidade facilmente
%% foge ao escopo\footnote{A elaboração de filtros
%% constitui uma área reconhecidamente complexa, com literatura
%% e pacotes de software dedicados.
%% Recomendamos ao leitor
%% interessado uma visita à nossa bibliografia.\cite{Openheim,smith}}. A aplicação de filtros pode
%% ser parte constituinte da síntese ou feita posteriormente
%% como parte dos processos tipicamente chamados de tratamento sonoro.
%% \begin{itemize}
%% \item Convolução e filtros de resposta ao impulso finita (FIR)
%% \begin{figure}[h!]
%% \centering
%% \includegraphics[width=\textwidth]{figuras/convolucao______}
%% \caption{Interpretação gráfica da convolução. Cada amostra resultante é a soma das amostras anteriores de um sinal uma a uma multiplicadas pelas amostras retrógradas do outro sinal.}
%% \label{fig:conv}
%% \end{figure}
%% Os filtros aplicados por convolução são conhecidos
%% pela sua sigla FIR (do inglês Finite Impulse Response)
%% e são caracterizados por possuírem uma representação amostral
%% finita no tempo. Esta representação amostral é chamada
%% de 'resposta ao impulso' $\{h_i\}$. Os filtros FIR são aplicados
%% no domínio temporal ao som
%% digitalizado pela convolução do som com a
%% resposta ao impulso do filtro\footnote{Pode-se aplicar o filtro do domínio espectral através da multiplicação das transformadas de Fourier de ambos o som e a resposta ao impulso, e então realizada a transformada inversa de Fourier do espectro resultante.\cite{Openheim}}. Para os fins deste trabalho, a
%% convolução fica definida como:
%% \begin{equation}\label{eq:conv}
%% \begin{split}
%% \left\{t_i'\right\}_0^{\Lambda_t+\Lambda_h-2\; = \;\Lambda_{t\, '}-1} =\{(T_j*H_j)_i\}_0^{\Lambda_{t \, '}-1} & =\left \{ \sum_{j=0}^{min(\Lambda_h-1,i)}h_{j} . t_{i-j} \right \}_0^{\Lambda_{t\, '}-1} \\
%% & =\left \{ \sum_{j=max(i+1-\Lambda_h,0)}^{i}t_j . h_{i-j} \right \}_0^{\Lambda_{t\, '}-1}
%% \end{split}
%% \end{equation}
%% Onde $t_i=0$ para as
%% amostras não definidas de antemão.
%% Ou seja, o som $\{t_i'\}$ resultante da convolução de $\{t_i\}$ com a resposta ao impulso $\{h_i\}$
%% tem cada i-ésima amostra $t_i$ substituída pela soma de suas últimas $\Lambda_h$ amostras $\{t_{i-j}\}_{j=0}^{\Lambda_h-1}$
%% multiplicadas uma a uma pelas amostras da resposta ao impulso $\{h_i\}_0^{\Lambda_h-1}$. Este
%% procedimento está ilustrado na figura~\ref{fig:conv}, onde a resposta ao impulso $\{h_i\}$
%% é percorrida na forma retrógrada e
%% $t_{12}'$ e $t_{32}'$ são duas amostras calculadas
%% pela convolução $(T_j*H_j)_i=t_i'$. O sinal resultante possui
%% sempre o tamanho $\Lambda_t+\Lambda_h -1=\Lambda_{t'}$.
%% Com este procedimento pode-se aplicar reverberadores, equalizadores, \emph{delays}
%% e vários outros tipos de filtros para fins de tratamento sonoro ou
%% efeitos musicais/artísticos.
%% A resposta ao impulso pode provir de medições
%% físicas ou da síntese. Uma resposta
%% ao impulso para a aplicação
%% de reverberação pode resultar da gravação sonora em um ambiente ao disparar
%% um estalo que se assemelhe a um impulso ou
%% de uma varredura em senoide, que transformada se aproxima
%% da resposta em frequência.
%% Ambas são respostas ao impulso
%% que, convoluidas com a sequência sonora, resultam na própria sequência
%% com uma reverberação que se assemelha àquela do ambiente
%% em que ocorreu a medição.\cite{Cook}
%% A transformada inversa
%% de Fourier de uma envoltória par e real é uma
%% resposta ao impulso de um FIR. Este realiza
%% uma filtragem em frequência com a envoltória.
%% Quanto maior o número de amostras maior
%% a resolução da envoltória e também
%% o processamento computacional, pois a convolução é cara.
%% Uma propriedade importante é o deslocamento temporal causado pela convolução com o impulso deslocado. Embora caro computacionalmente,
%% pode-se criar linhas de \emph{delays} através da convolução do som com uma resposta ao impulso que possui um impulso
%% para cada reincidência do som.
%% Na figura~\ref{fig:delays}
%% pode-se observar o deslocamento causado pela convolução
%% com o impulso. Dependendo da densidade dos impulsos, o resultado
%% é de caráter rítmico (20 impulsos por segundo ou menos) ou de amálgama
%% sonoro (20-40 impulsos por segundo ou mais). Neste último caso,
%% ocorrem processos tipicamente vinculados à síntese granular, delays, reverbs e equalizações.
%% \begin{figure}[h!]
%% \centering
%% \includegraphics[width=\textwidth]{figuras/delays__}
%% \caption{Convolução com o impulso: deslocamento (a), linhas de delays (b) e síntese granular~(c). Dispostos em ordem crescente de densidade de pulsos.}
%% \label{fig:delays}
%% \end{figure}
%% \item Filtros de resposta ao impulso infinita (IIR)
%% Esta classe de filtros é
%% conhecida pela sigla IIR (do inglês Infinite Impulse Response)
%% e é caracterizada por possuir uma representação temporal
%% infinita, i.e. a resposta ao impulso não converge para zero.
%% Sua aplicação é usualmente feita pela equação:
%% \begin{equation}\label{eq:diferencas}
%% t_i' = \frac{1}{b_0}\left ( \sum_{j=0}^Ja_j . t_{i-j} + \sum_{k=1}^Kb_k . t_{i-k}' \right )
%% \end{equation}
%% com $b_0=1$ na grande maioria dos casos pois pode-se normalizar as variáveis:
%% $a_j'=\frac{a_j}{b_0}$ e $b_k'=\frac{b_k}{b_0} \Rightarrow b_0' = 1$.
%% A equação~\ref{eq:diferencas} é chamada 'equação a diferenças' por exibir as amostras resultantes $\left\{t_i'\right\}$
%% através das diferenças entre as amostras originais $\{t_i\}$ e as amostras resultantes anteriores $\left\{t_{i-k}'\right\}$.
%% Existem
%% diversos métodos e ferramentas para a elaboração de filtros IIR
%% e segue abaixo uma seleção com fins didáticos e para consulta futura por
%% utilidade.
%% São filtros bem comportados e cujas
%% filtragens estão na figura~\ref{fig:iir}.
%% No caso dos filtros de ordem simples, a frequência de corte $f_c$ é onde
%% o filtro realiza uma atenuação de $-3dB \approx 0.707 $ da amplitude original.
%% No caso dos filtros passa e rejeita banda, esta mesma atenuação é
%% resultado de duas especificações: $f_c$ (neste caso mais bem compreendida como 'frequência central') e a largura de banda $bw$,
%% em ambas as frequências $f_c \pm bw$ há uma atenuação de $\approx 0.707$ da amplitude original.
%% Existe amplificação do som no caso dos filtros passa e rejeita banda quando a frequência
%% de corte é baixa e a largura de banda é grande o suficiente. Nos agudos, estes filtros apresentam
%% somente um desvio do perfil esperado, expandindo a envoltória para o lado grave da banda em
%% evidência.
%% Para filtros cujas respostas em frequência possuem outras envoltórias (para o módulo),
%% pode-se realizar cascatas destes filtros aplicando-os sucessivamente.
%% Outra possibilidade é utilizar alguma receita de filtro
%% biquad\footnote{Abreviação
%% de 'biquadrado' pois sua função de transferência possui dois polos e dois zeros, i.e. sua
%% forma normal consiste em dois polinômios quadráticos formando uma fração:
%% $\mathbb{H}(z)=\frac{a_0+a_1.z^{-1}+a_2.x^{-2}}{1- b_1.z^{-1} -b_2 . z^{-2}}$.}
%% ou rotinas para cálculo de coeficientes
%% de filtros Chebichev\footnote{Filtros Butterworth e Elípticos podem
%% ser considerados como casos específicos dos Filtros do tipo Chebichev.\cite{Openheim,smith}}.
%% Ambas as possibilidades são exploradas
%% por títulos em nossas referências, em especial~\cite{JOSFM,smith} e a coleção de filtros da comunidade \emph{Music-DSP}, da Universidade de Columbia.\cite{music-dsp,Openheim}
%% \end{itemize}
%% \begin{enumerate}
%% \item Passa-baixas de polo simples com módulo da resposta em frequência no canto superior esquerdo da figura~\ref{fig:iir}. A fórmula geral tem
%% por referência da frequência de corte $f_c \in (0,\frac{1}{2})$,
%% fração da frequência de amostragem $f_a$
%% em que há aproximadamente uma atenuação de $3dB$.
%% Os coeficientes do filtro IIR
%% $a_0$ e $b_1$
%% são dados através da variável intermediária $x \in [e^{-\pi},1]$:
%% \begin{figure}[h!]
%% \centering
%% \includegraphics[width=\textwidth]{figuras/iir___}
%% \caption{Módulos da resposta em frequência (a), (b), (c) e (d) respectivamente dos filtros IIR das equações \ref{eq:passa-baixas}, \ref{eq:passa-altas}, \ref{eq:passa-banda} e \ref{eq:rejeita-banda} para diferentes frequências de corte, frequências centrais e larguras de banda.}
%% \label{fig:iir}
%% \end{figure}
%% \begin{equation}\label{eq:passa-baixas}
%% \begin{split}
%% x & =e^{-2\pi f_c} \\
%% a_0 & = 1-x \\
%% b_1 & = x
%% \end{split}
%% \end{equation}
%% \item Passa-altas de polo simples com o módulo da resposta em frequência no canto superior direito da figura~\ref{fig:iir}. A fórmula geral,
%% com frequência de corte $f_c \in (0,\frac{1}{2})$, é calculada através da variável
%% intermediária $x \in [e^{-\pi},1]$:
%% \begin{equation}\label{eq:passa-altas}
%% \begin{split}
%% x & =e^{-2\pi f_c} \\
%% a_0 & = \frac{x+1}{2} \\
%% a_1 & = -\frac{x+1}{2} \\
%% b_1 & = x
%% \end{split}
%% \end{equation}
%% %\item Passa-banda
%% %\item Rejeita-banda
%% \item Nó (\emph{notch filter}). Este filtro é parametrizado
%% pela frequência central\footnote{ Atenção com a frequência de corte também $f_c$ nos filtros passa baixas e passa altas.} $f_c$
%% e a largura de banda $bw$
%% - $f_c \pm bw$, que resultam em $0.707$ da amplitude, i.e. atenuação de $3dB$ -
%% ambos dados como frações de $f_a$, portanto $f,\; bw \in (0,0.5)$.
%% Por facilidade, sejam as variáveis auxiliares $K$ e $R$:
%% \begin{equation}\label{eq:varAux}
%% \begin{split}
%% R & = 1 - 3bw \\
%% K & = \frac{1-2R\cos(2\pi f_c) + R^2}{2 - 2 \cos (2 \pi f_c)}
%% \end{split}
%% \end{equation}
%% O filtro passa banda do canto inferior esquerdo da figura~\ref{fig:iir}
%% possui os seguintes coeficientes para a equação~\ref{eq:diferencas}:
%% \begin{equation}\label{eq:passa-banda}
%% \begin{split}
%% a_0 & = 1 - K \\
%% a_1 & = 2(K-R)\cos (2\pi f_c) \\
%% a_2 & = R^2-K \\
%% b_1 & = 2R \cos (2\pi f_c) \\
%% b_2 & = -R^2
%% \end{split}
%% \end{equation}
%% Os coeficientes do filtro rejeita banda são:
%% \begin{equation}\label{eq:rejeita-banda}
%% \begin{split}
%% a_0 & = K \\
%% a_1 & = -2K\cos (2\pi f_c) \\
%% a_2 & = K \\
%% b_1 & = 2R \cos (2\pi f_c) \\
%% b_2 & = -R^2
%% \end{split}
%% \end{equation}
%% com o módulo de sua resposta em frequência
%% disposto na parte inferior esquerda da figura~\ref{fig:iir}.
%% %\item Biquad: pela especificação de uma frequência central, da qualidade
%% %e da intensidade do filtro, este filtro é simples e usual para áudio,
%% %permitindo ajustes mais finos. Diversas receitas podem ser encontradas
%% %na literatura, recomendamos especialmente as diferentes especificações
%% %em ~\ref{musicDSP} e ~\ref{dspguide}.
%% \end{enumerate}
%% \subsection{Ruídos}\label{subsec:ruidos}
%% De forma geral, os sons sem altura definida
%% são chamados ruídos.\cite{Lacerda}
%% Estes são constituintes importantes dos sons musicais de altura definida,
%% como os ruídos presentes nas notas do piano, do violino, etc. Além disso, os instrumentos
%% de percussão, em grande parte, não possuem altura definida e seus sons
%% são em geral compreendidos como ruídos.\cite{Roederer} Na música eletrônica, incluindo
%% a eletroacústica e gêneros de pista de dança, os ruídos possuem usos diversificados e comumente
%% característicos do estilo musical.\cite{Cook}
%% A ausência de uma altura definida é fruto da ausência de uma organização harmônica perceptível nas componentes senoidais que formam o som. Assim,