マルソリ・ラボ
言語学、音声学、日本語、韓国語など。
201710<<123456789101112131415161718192021222324252627282930>>201712
スポンサーサイト
上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

正規化が必要になるとき(2)
音声学における正規化に関して,以前の記事のつづきです。

持続時間やインテンシティの正規化については,私はあまりよく知らなくて,唯一知っているのはCampbell and Isard (1991), キャンベル (1997) によるものです。

これは,前にF0に関して書いた中でとりあげたのと同様,Zスコアを利用したものです。ただし,分節音による内在的な差異(例えば,同一条件下では,[a]は[i]より長くなる)を考慮し,各話者の各分節音ごとにZスコアを算出しています。

ちなみに,Zスコアというのは,ある値から全体の平均を引き,標準偏差で割った値のことです。統計を勉強するとよく出てきます。

この方法,もしかしたら前にコメントされた方への答えになるのかもしれません。ただ,本当に正規化をする必要があるかどうかは,やはり目的に応じて検討するべきだと思います。アプローチの仕方はいろいろありますので。

特に,どういった類のデータに適用するかに注意すべきだと思います。平均値と標準偏差を利用するので,一文とか二文といった少ない量のデータしかない状況では,適用したらおかしなことになってしまうはずです。データベースのように大量のデータを扱うときには有効でしょう。

ちなみに,上の論文では,韻律情報の自動識別という工学的な目的があるようです。そういう場合には,確かにこういうことが必要になってくるのでしょう。




参考文献



キャンベル,N. (1997) 「プラグマティック・イントネーション:韻律情報の機能的役割」音声文法研究会(編)『文法と音声』くろしお出版.

文法と音声 文法と音声
音声文法研究会 (1997/05/23)
くろしお出版

この商品の詳細を見る


Campbell, W.N. and S.D. Isard (1991) Segment durations in a syllable frame. Journal of Phonetics 19, 37-47.
スポンサーサイト

正規化が必要になるとき (1)
以前の記事のコメント欄で質問をいただいていた,音声学における正規化(normalization)について,もう少し詳しく書いてみることにします。

正規化が必要になるケースというのは,研究目的によりけりだと思います。そして,そういうケースというのは,さほど多くはないんじゃないかと思います。私の知っているいくつかのケースを挙げてみることにします。

F0の正規化



ピッチを音響音声学的に分析するには,ふつうF0(基本周波数)をみます。このF0,話者によって高さや幅がかなり違います。そのため,複数の話者のF0を扱う上で,F0を正規化するという方法があります。

・藤崎・杉藤(1977:89-90)の方法:F0曲線を縦軸が対数のグラフ上に描き,各話者の平均が同じになるように平行移動する。

・Zスコア:Rose(1987), キャンベル(1997)など。私も以前まねしてみたことがあります(宇都木 2003)。

・もっと簡単な方法:斎藤(2001)は,上の二つの方法を紹介するとともに,別の方法についても述べています。

また,あまり高級なやり方でなはいが,各話者の発話におけるいちばん高いところを100,いちばん低い部分を0として百分率で表すという方法で,ある程度正規化できる。また,この正規化の問題は,声の高さや幅の類似した話者をインフォーマントとして使うことで,いくらかは避けられるようである。


ただ,複数の条件下の測定値を比較するという場合(例えば,「橋」と「端」のF0ピークを比べる,など),話者間の差異の問題は統計によって解決できるので,たいていの場合正規化は必要ないんじゃないかと,私は最近考えています。つまり,反復測定の分散分析を使う(あるいは,原理的にたぶん同じことだと思いますが,「話者」を変量効果要因(random-effects factor)とした多元配置の分散分析を行う)ことで済むのではないかと思うのです。

ただし,複数の話者の複数の発話を平均化したF0曲線を描きたい,というような場合には,正規化した上で平均化した方がいいでしょう。その場合,以下の時間軸の正規化もあわせて行う必要があります。

F0曲線の時間軸の正規化



これは,以前の記事で取り上げたものです(その1その2)。複数のF0曲線を重ね合わせる場合に有用です。また,上に書いたような複数のF0曲線を平均化した曲線を描く場合にも必要となるでしょう。

一方で,時間軸をいじるために形状が変わってしまう点に注意すべきです。必要性があるとき以外は,正規化する必要はないでしょう。

私は,韓国語馬山・昌原方言の論文(Utsugi 2007)でこれを使いました。細かく把握してはいませんが,こういった方法を用いている人は多いんじゃないかと思います。上に挙げた藤崎・杉藤(1977)も使っています。



F0以外については,また後で書く予定です。キャンベル(1997)がやっていることが中心になるだろうと思いますので,次の記事まで待てない方(がどれだけいるかわかりませんが・・・)は,そちらの論文を参考にしていただければと。



参考文献


キャンベル,N. (1997) 「プラグマティック・イントネーション:韻律情報の機能的役割」音声文法研究会(編)『文法と音声』くろしお出版.
文法と音声 文法と音声
音声文法研究会 (1997/05/23)
くろしお出版

この商品の詳細を見る


藤崎博也・杉藤美代子 (1977) 「音声の物理的性質」『岩波講座 日本語5 音韻』岩波書店.

Rose, P. (1987) Considerations in the normalization of the fundamental frequency of linguistic tone. Speech Communication 6. 343-351.

斎藤純男 (2001) 「音調の分析」城生佰太郎(編)『日本語教育学シリーズ 第3巻 コンピュータ音声学』おうふう.
コンピュータ音声学 (日本語教育学シリーズ) コンピュータ音声学 (日本語教育学シリーズ)
城生 佰太郎 (2001/01)
おうふう

この商品の詳細を見る


宇都木昭 (2003) 「朝鮮語ソウル方言におけるフォーカス発話と中立発話のピッチパターン -修飾語+被修飾語の構造の場合-」 朝鮮語研究会第200回記念国際学術大会, 東京外国語大学. (発表論文集 pp.86-101.)

Utsugi, A. (2007) The interplay between lexical and postlexical tonal phenomena and the prosodic structure in Masan/Changwon Korean. ICPhS 2007 Satellite Meeting: Workshop on "Intonational Phonology: Understudied or Fieldwork Languages," Saarbrücken, Germany.

音声学に役立つ、マイクに関するサイト
マイクに関して調べていて、いくつか役に立つサイトを見つけました。

心理学者のための音声収録・分析・呈示テクニック
森大毅氏が「高品質な音声収録のための基礎技術」というところで、マイクについて紹介しています。無指向性のコンデンサマイクがおすすめのよう。近接効果のデモンストレーションはおもしろいです。

audio-technica:MIC Navi
「マイク使いこなし講座」など、マイクに関することがいろいろ。勉強になります。

音声学のための録音機器 (2)
以前に音声学のための録音機器(1)という記事を書いてから、約1ヶ月が経ちました。首を長くして待ったいらした方がいらっしゃるかどうかわかりませんが、ようやく(2)です。
(だいたいこのブログは、予告しておきながら書いていないことが多すぎるのですが。)

パソコンで録音


前回の記事ではいろいろな機器を紹介しましたが、そういった機器を使わずパソコンで録音するというのも一つの方法です。ノートパソコンならば、持ち運びもできます。こういう方法をとっている研究者は、けっこうたくさんいます。

録音するには、パソコンのマイク端子にマイクをつなぎ、録音のためのソフトウェアを用います。ただし、パソコンでの録音においては、様々な形でノイズが混入しうることに注意する必要があります。(私はこういうことにあまり詳しくありませんが、そうなんだそうです。)
【参考】
英語音声学掲示板(牧野武彦氏)の「録音技術」のスレッド

普通に録音してみてノイズが気になるようであれば、オーディオインターフェースにこだわってみるというのが、一つの方法です。オーディオインターフェースとは、パソコンにおいて音の入出力を担当しているもののことです。もともとパソコンにはオーディオインターフェースがついているのが普通ですが(上に書いたマイク端子にマイクをつなぐというのは、まさにこれを利用しているわけです)、ノイズを減らすには、よりよいものに取り替える(または外付けする)必要があります。
【参考】
オーディオインターフェイスの選び方(All About)
オーディオインターフェイスについて(音楽機材について)

さらに、パソコンで録音するには、ソフトウェアが必要です。Windowsのアクセサリに入っているサウンドレコーダーを用いるという手もありますが、これはちょっといまいちです。音響分析ソフトウェアを用いるか、音声編集用のソフトウェアを用いるといいでしょう。音声編集用のソフトウェアとして代表的なものに、Audacityがあります(フリーです)。
Audacity

ほかにもいろいろソフトがあります。いずれこのブログで取り上げるかもしれません。

デジタルビデオカメラ


録音をするのにデジタルビデオカメラが案外いいんじゃないかと、ある先生が言ってましたが、確かにデジタルビデオカメラには、非圧縮のリニアPCMで録音できるものが多くあります。映像も一緒にとっておきたいような場合には、いいかもしれません。



録音機器については、最近出た『講座社会言語科学 6 方法』という本の以下の章にも詳しく書いてあり、参考になると思います。

小磯花絵 (2006) 「会話データの構築法」伝康晴・田中ゆかり(編)『講座社会言語科学 6 方法』pp.170-186, ひつじ書房.

講座社会言語科学〈第6巻〉方法 講座社会言語科学〈第6巻〉方法
(2006/09)
ひつじ書房

この商品の詳細を見る


あとは、わからないことがあれば専門家に相談することでしょうか。こういう締めくくり方をすると、何と無責任な…と言われたりするのですが、でも機器のことは奥が深いので、専門家に相談するのがやはり一番です。

では私はその専門家かというと…
どうなんでしょうね?
こういうのは相対的な問題だと思いますが、少なくとも、私よりずっとずっと詳しい人はたくさんいます。私の知りうる限りの情報はここにほとんど書いてしまったので、私に聞いてもこれ以上のことはあまり出てこないでしょう、、、

音声学のための録音機器 (1)
よく、他の研究者から録音機器について聞かれることがあります。新しく購入したいんだけど、何がいいんだろうかと。

実のところ、私自身、音声学が専門とはいえ、こういうことにはあまり詳しいわけではありません。これまでは、実験室に備え付けられているものをただ使ってきただけなわけで。それなのにそういうことを聞かれるものだから、ちょっと困ってしまうわけです。私がそういうことに詳しそうに見えるのでしょうか?

最近もそういうことを聞かれたもので、ちょっと調べてみました。以下はそのまとめです。ご意見や実際に使用された感想など歓迎します。

なお、全般的に、以下のものを特に参考にしました。
日本音声学会の音声学セミナー:音響音声学入門 ― 音声学のための音響学 ―(2005年3月26日、講師:荒井隆行氏)
英語音声学掲示板(牧野武彦氏)の「録音技術」のスレッド

MD・DAT


録音機器として一般の人がまっさきに思いつくのは、MDでしょう。MDは、広く普及していて、さほど高価でなく、手軽に録音できる機器です。でも、MDには問題があります。それは、MDが、長時間の音声を小さなディスクに記録するために、音声を圧縮しているという点です。つまり、私たちの耳による聞こえ方においては重要でない部分に関し、その情報を変えるような処理が施されているわけです。

このことは、普通に音楽を楽しむ分には問題ありません。問題ないような部分を変えているわけですから。しかし、音声学においては、話は別です。聞く上で問題がなくても、音響分析の際には、そこが問題になってくる可能性があるわけです。そのため、音声学の録音において(特に音響分析に耐えうる録音をしたい場合)、MDはあまり推奨されていません。(ただし、分析する内容にもよるようですが、、、まあ、とりあえず避けておいた方が無難なことは確か。)

そこで、これまで広く推奨されてきたのが、DATというものです。DATというのは、Digital Audio Tapeの略で、非圧縮で高音質の録音ができることを大きな特徴としています。
【参考】
ウィキペディア:DAT

ところが、、、
ここへきて大きな変化がありました。2005年末に、業務用を除き、DATの生産が終了してしまったのです。私のところに相談が多少来るようになったのも、こういう背景があるのでしょう。これまでは音声学の録音=DATだったのに、DATが購入できなくなり、いったいどうしたらいいのかと。

調べてみると、DATにかわりうる録音機器はいろいろあるようです(だからこそ、DATはその使命を全うできたのでしょう)。ポイントは、「非圧縮」という点。以下に紹介するのは、そういったものです。

メモリレコーダー・WAVE/MP3レコーダー・リニアPCMレコーダー、etc.


このてのものを総称としてなんと呼べばいいのかわかりませんが、、、非圧縮で録音でき、何らかの媒体(メモリカード)に保存、USBによるパソコンへの転送が容易なものです。

まずは、マランツ。
前述の音声学セミナーや英語音声学掲示板にはPMD670が紹介されていますが、現在はPMD671になっています。
D&M Professional - PMD671
メーカー希望小売価格が144,900円ということで、個人で買うにはかなり高いです。

もう少し小型で安価なのが、PMD660。
D&M Professional - PMD660

【参考】
ポータブルデジタルメモリレコーダー マランツPMD660/PMD671(Arcadia)
ポータブル デジタルメモリレコーダー(マランツ PMD660/PMD671)とAcousticCoreによる音声分析ソリューション(Arcadia)

次に、ローランドのEDIROL。
音声学セミナーで紹介されていたのが、R-1。
R-1 WAVE/MP3 RECORDER R-1 WAVE/MP3 RECORDER
(2004/11/19)
ローランド
この商品の詳細を見る

R-1はアマゾンで在庫切れになってますが、後からR-4、R-09といった新製品が出ています。

R-4 4チャンネル・ポータブルレコーダー&ウェーブ・エディター R-4 4チャンネル・ポータブルレコーダー&ウェーブ・エディター
(2005/03/11)
ローランド
この商品の詳細を見る


やや大きめで、値段もマランツのPMD671並みに高い。でも、いろいろなことができそうです。
【参考】
Roland : EDIROL ビデオ機器: R-4
吉田健二 東北アクセント報告:録音の新兵器1

一方、小型で価格的にも手ごろなのが、R-09。
R-09 24bit WAVE/MP3 RECORDER R-09 24bit WAVE/MP3 RECORDER
(2006/04/28)
ローランド
この商品の詳細を見る

フィールドワークにはこういうのが適しているのではないかと思います。

実は私も、知人に頼まれ、一時帰国中にこれを探しました。ところが、秋葉原で数件まわった限り、どこも品切れ、入荷未定(2006年8月末のこと)。店の人の話では、人気が高いそうです。
【参考】
Roland : EDIROL 製品情報 R-09
サンプル音源付き!ローランドの「EDIROL R-09」でライブの“生録”に挑戦 / デジタルARENA
吉田健二 東北アクセント報告:録音の新兵器2

つづいて、SONY。
PCM-D1というものが発売されています。
PCM-D1 リニアPCMレコーダー PCM-D1 リニアPCMレコーダー
(2005/11/21)
ソニー
この商品の詳細を見る

これもなかなか高い。というか、今まででいちばん高いです。でも、下の製品情報を見ると、なんだかとても欲しくなってきます(宣伝にのせられすぎ?)。
【参考】
Linear SONY: PCM Recorder

最後に、M-AUDIO。
MicroTrack 24/96という製品が出ています。
M-AUDIO モバイルデジタルレコーダ MicroTrack24/96 MMT M-AUDIO モバイルデジタルレコーダ MicroTrack24/96 MMT
()
M-Audio
この商品の詳細を見る

これは、上に紹介したEDIROL R-09を買いにいったときに、店頭で偶然見つけたものです。基本的には、EDIROL R-09と同じようなもののよう、、、
【参考】
M-AUDIO - MicroTrack 24/96 - プロフェッショナル2チャンネル・モバイル・デジタル・レコーダー

Hi-MD


上でMDは音声を圧縮するのでよくないと書きましたが、実は圧縮しないタイプのMDもあります。比較的最近登場した、Hi-MDというものです。これで非圧縮のリニアPCMモードで録音すれば、音響分析を行う上でも基本的に問題ないはず。価格的にも手ごろ。
MZ-RH1 S Hi-MD ウォークマン MZ-RH1 S Hi-MD ウォークマン
(2006/04/21)
ソニー
この商品の詳細を見る

SONY Hi-MDウォークマン シルバー [MZ-RH10S] SONY Hi-MDウォークマン シルバー [MZ-RH10S]
(2005/03/10)
ソニー
この商品の詳細を見る

【参考】
SONY: Hi-MD

ひとまずここまで。
(2)につづく予定。

copyright © 2004-2005 Powered By FC2ブログ allrights reserved.
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。