RSS

 

RSS


フォルマント兄弟の活動に注目していたりして
数年前の映像ですが
Formant Brothers "Ordering a Pizza de Brothers!"
この時は二人がかりでリアルタイム音声合成をやっていたのですが、
演奏でピザを注文するという前人未到なチャレンジをしている。

フォルマント音響合成の演奏音でちゃんとピザが頼めるのはすごい。
まぁ、いつもこんなにうまくいくわけでもなく
Ordering a Pizza de Brothers! ll
こちらは胡弓をつかって音程をコントロールしている様子

基本的にピザ屋さんの優しさを感じます。
(おそらくですがいろんな人がピザを頼む事を想定しているのだと思う。例えばホーキング博士のような。ホーキング博士と言えばDECTalk、MiTalk?しかりKlatさんばりのフォルマント合成ノウハウがこのシステムにつまっているのがすごいと思う・・・)

というわけで、二人掛かりで操作するシステムはとても大変という事で、
もっと簡単(?)に演奏できるスタイルを最近開発したらしくその名も
「兄弟式日本語鍵盤音素変換標準規格」
というもので、
左手で音素、黒鍵に母音、白鍵に子音といった具合に配置、二重母音は連続的に、濁る音などは3度の和音でといった具合にして50音+αを1octaveで表現してしまうもの。

一方右手側では音程コントロールなのですが、
こちらは[17音平均率]による微分音程表現ができるように工夫されています。

声や歌唱の場合
少し上ずったり、こぶしを効かせたり、ビブラートをコントロールしたりすると思うと12平均率では足りません。
初音ミクとかでもエディターでピッチベンドやポルタメントを駆使したりビブラートを定義したりしないとらしくならないのですが、
では、リアルタイムで入力するにはどうするか?MIDIキーボードやシンセのように鍵盤+ピッチベンドやボリュームコントロールもあるかもですが、それだと音程制御だけで両手が塞がってしまいます。

既に左手は音素設定で埋まっている。じゃぁ、右手だけで微妙な音程を出せてしまえば・・・というのがこのコントロールシステムの凄いところ。

例えば、C#とDbの違いを表現するには、C#の鍵盤とCを押せばDb側、C#とDを押せばC#側に変化する。という具合に多音入力するとその平均の音程が導きだせるようになる。(和音入力はできないけど、歌唱や声なので問題ない)
さらに応用するとCとEを同時に押すと間のDが、CとFを押すとEの少し音程の上がった音が、といった具合に12平均率以上の音程を導きだしてしまったりする事が可能。

しかも既存の五線譜で表記ができてしまう。

ある意味、12平均率の楽譜情報に17平均率分かそれ以上の情報を圧縮したものとしているよう。

※音声圧縮技術とかもそうですが、情報を減らす場合には様々な工夫やノウハウが詰まっています。ADXしかり。


17平均率の分かりやすいところは、黒鍵が5個分が倍になるような解釈で良いのと、ビブラートや上ずったりするような音程変化も押さえている平均なので左右の音程マッピングが近いところかも知れない。非常に音楽的なコーデックな気がする。
しかもMIDIのNote情報だけで済むという事は、さらなる歌唱要素(声質を変えるといったような)情報も付加できる可能性がある。

・・・

というわけで技術的な話はこんななのですが、

これらのシステムで最近三味線と合わせて「都々逸」をやっていてこれが良かった。
※ちゃーりーは都々逸なんて効いた事無かったですが、これは面白いですね。こんな大切な文化が12平均率の為にMuteされていると思うと日本の音楽教育はぁ・・・なんてまぁそれはおいといても、日本人でいる限り何かしら根付いているものはある気がする。

西洋の記譜で、それこそ現代音楽風な細かい指定通りに演奏すると
日本語の歌詞ののった微妙な音程の変化やこぶしまわしがついた
音声が出力されるという不思議さ。

西洋音楽は12平均率で、世の中の音楽もすべてその音程の解像度で扱われるようになってしまって数百年たっていますが、
そろそろ解像度があがってもいい頃では?

ただ、そういう試みは昔から行われているけれど、やっぱり一般化できなかった理由としては突飛なインターフェースやシステムだったりすると普通の人はついていけないところだったりします。

テルミンとかもそうですが、それらを訓練するのは難しい。ので結局広まったのはMoogシンセのようなピアノ鍵盤タイプだったように・・・。インターフェースは重要ですね。

逆に言えば、ピアノのインターフェースは訓練された人達が多いという事も事実。触れる機会も多い。
それを活用しない手は無いと。

技術が進んで解像度が上がってもそれらを扱う人口が少ないと取り上げられる事すらない。でも声とか歌とかって実は面白いし、
これだけ複雑な音響合成を人間の声帯は常にコントロールしているわけだから、とても身近な存在でもある。

初音ミクくらいの盛り上がりをすれば次のステップへも続いていくという現実もあるし。


符号化できるということは再現可能性のあるものに落とし込めるということで、さらにはそれらのフォーマットが一般化して扱いやすい点が重要だったりします。

映像でいうところのh.264とかみたいなイメージかな。Sofdecとかでもh.264再生できたりするし、ADX でもWavやAIFFなど一般的なコーデックも再生可能だったりするし。

身近な素材やフォーマット(ピアノ鍵盤とか、演奏スタイルとか)を再利用して新しい表現をするって、創作している感じが強い。
JAZZの演奏とかでも楽器との距離感とか、
職人さんにとっては
体の一部になる道具だったりとか、
コンピュータやネットワークインフラ、iPhoneとか携帯機器とかGoogleとかも、
知らずに一般化されてるし
体に近い、さらには内包してしまっている声帯とかは体の一部ですよね。

これはちょっと面白いと心の中で思ったちゃーりー。
と、「機械仕掛けの音楽」を見て来た感想でした。



このチャンネルのトップへ
CRIチャンネルトップへ

  • コメント (0)
  • トラックバック (0)
トラックバックURL :
http://ch.cri-mw.co.jp/tb.cgi/54267