マルソリ・ラボ
言語学、音声学、日本語、韓国語など。
200804<<12345678910111213141516171819202122232425262728293031>>200806
スポンサーサイト
上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

自動翻訳と語学屋の未来
前回の記事で,Google翻訳のことを書きました。Google翻訳というか,おそらく自動翻訳全般に言えるのでしょうが,今はレベル的にまだまだだと思います。でも,技術というのはどんどん進歩するものです。そのうち,誤訳がほとんど無いレベルになる日が来るでしょう。それが近い未来か遠い未来かはわかりませんが。

そうなったら語学を専門としている人たちはどうなってしまうんだろうか,なんてことも考えてしまいます。高性能で手軽な自動翻訳ソフトが登場したら,世間の人々は語学をあえて勉強しようと思わなくなるかもしれません。一部の語学好きの人は勉強しつづけるでしょうが,社会全体としてのニーズは減るんじゃないかと思います。そうなると,大学の語学のコマ数も減らされるでしょう。そして,大学における語学の教員のポストも減るでしょう。語学屋さんたちは大学から職を失ってしまうのでしょうか。

私自身も,将来語学関係のポストにつくかもしれないわけですから,他人事ではありません。

想像はさらに進みます。自動翻訳の技術はさらに向上し,スピードはもちろんのこと質的にも翻訳家より勝ってしまう日が来るかもしれません。ちょうど,チェスのゲームでコンピュータが人間のチャンピオンに勝ってしまったように。そうしたら翻訳家も失業してしまうのでしょうか。

そんな時代が来たら,語学屋さんたちは自動翻訳ソフトを破壊してまわるのでしょうか。産業革命の時代,機械に職を奪われた労働者が機械を打ち壊したように。
スポンサーサイト

グーグル翻訳
グーグルの多様なサービスの1つに,グーグル翻訳というのがあります。

例えば,このブログを英語に翻訳した結果は,こんな感じ

間違いだらけではありますが,どんな話題が扱われているかぐらいはわかると思います。

以前は,英語-日本語とか英語-韓国語とか,英語と他言語の間の翻訳ばかりだったのですが,最近見てみたら,日本語-韓国語など,いろいろな言語間の翻訳が出来るようになっていました。例えば,このブログを韓国語に翻訳した結果はこんな感じ

英語の場合よりも上手に訳せてます。それだけ日本語と韓国語が似ているということなのでしょう。

下のような翻訳ガジェットなんてものもあります。このブログをいろいろな言語に翻訳できます。(翻訳結果から戻ってくるときは,ブラウザのボタンを使ってください。)



まあ,自動翻訳のサービスは,グーグル以外にもいろいろあるのですが。私はあまり比べてみたことがないので,どれが良いのかはわかりません。

いずれにしても,自動翻訳ってずいぶん手軽に出来るようになったんだなあと思います。それだけに,日本語のできない人がこのブログを見る可能性も,今後増えるかもしれません。うかつに外国人の悪口とか書けないですね。(今まで書いてないと思いますし,今後も別にそういうことを書くつもりはないですけど。)

音声学と実験ノート
データの分析の途中で,あるいは論文を書いたり修正したりしているとき,しばしば以前おこなったデータ収集や分析のプロセスを見る必要が出てきます。それで実験ノートを改めて見てみたり,関連ファイルを見てみたり。先日もそんなことをしていたのですが,ノートやファイルを見ているうちに,自分の整理の仕方がものすごく要領が悪いように思えてきました。

そもそも自分のノートが「実験ノート」と呼ぶに値するのかというのがまず問題です。理系の実験研究では実験ノートをとることが重要なこととされているみたいですが,自分は文系で,今まで特に実験ノートをとるという教育を受けたことがありません。研究をする中で,メモを長期的に残しておくということを自然に学んだだけのことで,結局のところメモの束の延長線上のようなものです。

# そもそも私のやっていることが実験なのかという疑問もありますが。「調査」と「実験」というものが連続的に存在していて,その中で調査的なことも実験的なこともやっているという感じです。ただ,調査であっても,やはりノートをとる意義は基本的に変わらないでしょうが。

そんなことを考えながら,ウィキペディアの「実験ノート」という項目を読んでみました。

実験ノート (ウィキペディア日本語版)

自分の研究分野には当てはまらない部分が多いなあという感じです。

目をひいたのは,実験ノートの電子化のところ。おもしろそうだったので,ここで紹介されている轟氏らの論文(日本語版)も読んでみました。

轟 眞市, 小西 智也, 井上 悟:``ブログを基にした実験ノート: 個人の研究活動を効率化する情報環境''

以下,この論文の要旨の冒頭からの引用。


昨今の情報技術全盛の時代にあって、多くの研究者は日々の活動を記録するのに、今
だ紙ベースのノートを使っている。このスタイルの記録方法は、実験データとそれに
付随した情報が、ハードディスクと紙とに別々に記録されるという状況を生み出す。
この様なデータの分離状態は、実験活動の高効率化を阻害する深刻な要因となる。


そう。まさにこれが問題の本質なんですよね。

私の研究の場合,まず元のデータそのものが音声ファイルとして電子化されています。さらに,分析資料のリスト,セグメンテーションした(Praatの)TextGridファイル,Pitchファイル,処理するためのPraatスクリプト,統計にかけるためのRのスクリプト,いろいろな分析結果のファイル,などなど。研究のプロセスにおける多くの部分がハードディスクの中にあるわけです。ノートにいくら記録しても,ノートの中では絶対に完結しえないところに,問題の本質があるわけです。

上の論文では,実験ノートの全てをコンピュータ上で記録し,関連するデータをリンクできるような方法を提案しています。とても魅力的なのですが,私が自力でやるには敷居がちょっと(かなり?)高いかも・・・。

まあ私の場合,ハードディスクと紙の「分離状態」を我慢しながらでも,もうちょっと改善の余地があるはずです。要するに,真面目にきちんと記録する癖をつけないと,ということです。

同業の音声学をやっている方々はどうしているんでしょう?

アクセント句とは何か (2)
2年ほど前に「アクセント句とは何か?」という記事を書きました。簡単に要約すれば,「アクセント句」(accentual phrase)という用語には,Pierrehumbert and Beckman (1988)によるものとHayata (1973)によるものの二通りがあるようだ,というものです。

最近研究室の整理をしていたら以前入手したHayata (1973) が出てきたので(書類の山の中に埋もれていました),該当箇所を読んでみました。
# ちなみにこの論文,いろいろなところでHayata (1971) として引かれているのですが,1973年が正しいようです。

要するにこういうことのようです。


アクセント句:##__##に囲まれ,その内部に##を含まない単位。


#の分布は統語構造の中で決まります。名詞+助詞の場合,両者の間には#が一つしかないので,アクセント句一つになります。伝統的な用語でいうところの文節とほぼ一致すると思います。

これ,Pierrehumbert and Beckman (1988) のアクセント句とはかなり違いますね。彼らは実際の音調の現れ方から定義するわけですので。例えば,「アマイ マメ」(甘い豆)は,Pierrehumbert and Beckmanの定義にしたがえば,「アマイ」と「マメ」の間にピッチの谷(L%)があればアクセント句2つで,なければアクセント句一つとなります。一方,早田先生の定義では,どう発音されるかに関わらず,常にアクセント句2つとなるんだろうと思います。

というわけなので,論文中に「アクセント句」という用語が出てきた場合,どちらの意味で使っているのか注意する必要がありそうです。私がソウル方言に関して言う場合には,以前の記事にも書きましたが,Jun (1993) と同じです。Junのアクセント句は,Pierrehumbert and Beckman (1988) と同じように,実際の音調から判断します。したがって,同じ文でも発音によってアクセント句形成のパターンはいろいろありえます。一方,日本で発表された慶尚道アクセントの論文の中で「アクセント句」という用語が出てきたら,たいていの場合,早田先生の定義のほうじゃないかと思います。

参照文献

Hayata, T. (1973) Accent in Old Kyoto and some modern Japanese dialects. 『言語の科学』第4号.

Jun, S.-A. (1993) The phonetics and phonology of Korean prosody. PhD dissertation, Ohio State University.

Pierrehumbert, J. and M.E. Beckman (1988) Japanese tone structure. Cambridge, MA: MIT Press.


引っ越し
いま,エディンバラ大学では新しい建物が建設中です。もうほとんど出来上がっているみたいで,来月になったら,いろいろな学科がそちらに引っ越します。私の所属している学科もそのひとつ。なので,私も来月には研究室の引っ越しをすることになります。

引っ越しといっても全て個人でやるわけではなくて,学内には専門のスタッフがいます。荷物を所定の箱に詰めれば,後はちゃんと運んでくれるようです。私の研究室にも,先日その所定の箱が届きました。↓


Crates



手前の赤い箱(6つ)です。さほど広くない研究室なので,ちょっと邪魔かも。というか,今は箱を重ねてあるからいいですが,荷造りを始めたら,通り道がなくなってしまいそうな気が・・・。

テーマ:研究者の生活 - ジャンル:学問・文化・芸術

疑問詞スコープなどにおける高平のピッチ(金次均 2002より)
慶尚道のいろいろな方言において,疑問詞のスコープが高く平らなピッチを示すことが知られています。久保智之先生がいろいろ発表されていて,以前にそれについての記事を書きました。例えば,

(1) 김치 물래? (HLHL) (キムチ食べる?)
(2) 무슨 김치 물래? (LHHHHL) (何のキムチ食べる?)

という具合です。本来のアクセント・トーンが失われてしまうのが特徴です。

似たような現象は福岡方言にもあることが知られていて,これもやはり久保先生が論文を書いています。福岡方言についてはさらに,Jennifer Smith氏が論じたり,五十嵐さんがフォーカスと絡めて分析したりしています。そんなわけで,けっこう話題の現象なわけです。

さて,この現象,今読んでいる金次均(2002)でも取り上げられていました(記事12)。慶尚道の昌原方言に関してです。データがいろいろ出ていました。

私が興味を持ったのは,この方言では似たような現象が疑問詞のスコープ以外にも観察されることです。取り上げられていたのは以下の副詞。(丸括弧内は標準語形)

안 [p.294ff.]
잘 [p.300f.]
잘몬 (잘못) [p.300f.]
더 [p.300f.]
고마/고만 (그만) [p.300f.]

いずれの場合も,後続の語(ときとして2語以上)までが1つの単位にまとまり,LH...HL(金次均氏にしたがえばMH...HM)というピッチをとります。後続語の本来のアクセント・トーンが失われること,次末音節から最終音節にかけて下降が現れることが特徴です。

昌原方言の韻律句形成(金次均 2002より)
前回の記事に引き続き,金次均氏の本に関する話です。

김차균 (2002) 영호남 방언 운율 비교. 역락.

第9章に興味深い話がありました。

この方言のピッチを文レベルでみたときに,本来の(単語単独の場合の)ピッチと比べてどのような変化があるか。著者は2通りの変化があると述べています。
A.. 声調形の結合
B. 音調形の弱化

# この著者が「声調」と「音調」をどういうふうに使い分けているのか,私にはいまいちよくわかりません。それはともかく,この2つの変化が意味するところはだいたいわかりました。以下は私の言葉で説明します。

Aは複合語トーン規則と同じ規則に従って変化するというもの。例えば,(1)が本来のトーンで,これが(2)になるというもの。

(1) ppee # mukcci # malko
  MM   HM    LM
(2) ppee mukcci malko
  HH   MM  MM

# 例はp.262 (74)より。
# 私はH(高音調)とL(低音調)の2つで表記してきたのですが,ここはとりあえず著者の表記に従って,H,M,Lの3段階の表記に。

Bは本来のトーンをとどめつつ,ピッチレンジが狭まるというもの。著者はこの場合をh, m, lというように小文字で表記しています。この場合,(1)は(3)のように発音されるとのこと。

(3) ppee mukci malko
  HH   hm  lm

著者はこの現象について,以下のように整理しています。

(4) (= p. 264 (78),拙訳)
a. 1つの語節は伝達のフォーカスになったり強調または対照されるとき強勢を受ける。
b. 1つの文の中で,声調形(/音調形)の結合の領域は,強勢を受ける語節から次の強勢を受ける語節の直前の語節までである。
c. 1つの文の中で,声調形(/音調形)弱化の領域は強勢を受ける語節の直後の語節から次の強勢を受ける語節の直前の語節までである。
d. ただし領域内で声調形の結合が生じるか音調形の弱化が生じるかは任意的である。

# (4a)でなぜ「1つの」という修飾語がつくのかよくわからないです。私の訳し方が悪いのか・・・?
# なお,「語節」というのは韓国の国語学の用語で,日本の「文節」に似た概念です。
# 「強勢」と書かれているのは,別の言い方をしたほうがいいでしょう。「プロミネンス」かな・・・。

要するに,(4b)がAに,(4c)がBに対応しているわけです。

なお,(4d)に関しては次のようにも述べています。以下は私の言葉におきかえてまとめたものです。

(5)
a. 語節内の形態素間では弱化(B)よりも結合(A)をすることが多い。
b. 語節間では結合(A)よりも弱化(B)をすることが多い。

(6)
a. 疑問詞や否定の안などが先行する場合は長く結合することがある。
b. aのケースを除けば,2~3の語節を超えて結合することはない。
c. bのケースにおいても,音節数が少ないほど結合しやすく,多いほど結合しにくい。

(6a)の疑問詞や否定の안に関しては,別のところで詳しく書かれていました。これについては後日あらためてまとめてみます。

次のようなことも書かれていました。


特別な場合を除けば,声調形の結合は2つの成分が修飾・被修飾の関係にあったり,目的語と他動詞の間の場合が多く,主語と自動詞の結合もときどき現れる。{-・아/・어}語尾を持つ本動詞と助動詞,合成動詞などの場合はさほど結合する方ではない。(p.265f. 拙訳)


こういう話,おもしろいと思いませんか?(誰に向かって話しかけているんでしょう?(笑))




なお,ちょっと似たような話,私も論文の中で書きました。昨年夏にポスター発表した馬山・昌原方言の韻律に関する論文。そこでは,フォーカスをおいた場合に,フォーカスのある語から後続の語にかけて1つの韻律句にまとまる場合と,2つに分かれて後ろのピッチレンジの上限が抑えられる場合があると書きました。上のAとBにほぼ対応します。全く同じではありませんが。

上の(2)と(3)の例では,実は両者は弱化の程度の違いだという解釈も成り立ちます(つまり,(2)は極端な弱化のケースだと)。私が調べた中では,AとBがはっきり違った現れ方をするケースがいろいろ観察されました。

私の論文と金次均氏の本では,同じ方言を扱っています。(というか,金次均氏はこの方言のネイティブ。)ただし,世代がかなり違います。私が若い世代に関して観察したことが,もっと上の世代でも同じように起きているというのが,私にとって非常に興味深かった点です。ただ,私の論文の中では,トーンのレキシカルな型(いわゆる「アクセント型」)とA/Bの現れ方の関係をいろいろ見たのですが,この本ではそのへんがわからないのが残念な点。本に収められている資料を自分で見ていけば,わかるのかもしれませんが。

あと,音節数に関する話は,私の論文と一致する点です。これに関しては,別の方言にも観察されました。今年の夏に大邱方言に関して発表します。

まあ,本来だったら,自分の論文を発表する前にこの本に目を通していて,論文中で言及をすべきだったのですが。改訂の際にはもちろん言及します。




なお,金次均氏の本の中では,弱化した場合の具体的なピッチの現れ方についても述べられています。それによれば, h (Hの弱化したもの)は H より低めに現れるが l (Lの弱化したもの)は L より高めに現れると述べています(p.265ff.)。これがもし本当だとしたら,一般的な韻律理論の観点からしても重要な意味を持つことだと思います。でも,本当なのか・・・私はちょっと懐疑的ですが。

金次均氏の「韻律句」と複合用言
最近,以下の本を読んでいます。

김차균 (2002) 영호남 방언 운율 비교. 역락.

韓国語の慶尚南道昌原方言と全羅南道潭陽方言の韻律を扱った本。とても分厚い本でまだ前半しか目を通せていませんが,その中で1つ気になった箇所が。


この本において韻律句は,許雄(1965,1972)の語節を含むのみならず,文法的な複雑性や大きさに関わらず,1つの韻律形で発音されさえすれば,形態素,語,またはそれより大きな単位である句や文,ときには2つ以上の文を指すこともあり,ときには語の一部分(例:/이・일#나・다/ <일어나다>,/개・앤#・찮・다/ <괜찮다>はそれぞれ1語が2つの韻律句から成っている)を指すこともある。この本において用いる韻律句は,現代の音声学や音韻論における音韻論的な語,韻律的な語,韻律語よりその含む範囲が多様で広い。(p.39 注16,拙訳)


# 本文で/이・일#나・다/の다の左脇に点があるかどうかは,見にくくてよくわかりません。私の慶尚道方言に関する知識から判断するに,たぶんあるはず。

似たような概念はいろいろあると思います。アクセント素,アクセント単位,アクセント句・・・。それぞれ少しずつ定義が違ったり,あるいは定義がよくわからなかったり。「1つの韻律形で発音」というのも,なんとなくわかるのですが,実際には判断の難しいケースがいろいろあると思います。

それはともかく,気になったのは1語が2つの韻律句で発音されるケース。ハングルの脇の点がトーンを表しているわけですが,著者独特の表記なので,以下にわかりやすく書き改めてみます。

(昌原方言の場合)
/iil+nata/ (起きる) [HL][HL]
/keen+chantha/ (大丈夫だ) [HL][HH]

# ハングルは音素表記に(hは正確には上付きにすべき。あと,nataのnは流音化するので l にしたほうがいいのかも。)Hは高音調,Lは低音調(著者の表記ではLではなくM)。[ ] は韻律句。

日本語の感覚からすると不思議な現象です。でも,方言ネイティブの著者がそう言っているのだから,きっと本当にそう発音するのでしょう。こういう例,もっと知りたいです。

copyright © 2004-2005 Powered By FC2ブログ allrights reserved.
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。