このマツノキコーパスは手作業のツリー分析による、津軽弁民話のコーパスです。 津軽弁は日本の津軽地方で使用されている方言です。 津軽地方は本州最北端、青森県の西部の地域を指していいます。 マツノキコーパスの特徴は以下の通りです:
さらに解析により得られた結果 — 特に依存関係のグラフは — 検索インターフェースで見ることができます。
マツノキコーパスのマツノキとは、コーパスを作り上げている津軽弁民話の中に頻繁に登場する松の木に由来しています。
このコーパスは津軽弁話者による音声データを使用しています。 この音声データは津軽弁によって語られる、津軽地方に関連した民話で構成されています。 現在合計で26話分の音声データがあり、これらすべてを合わせるとほぼ4時間分の音声データになります。
これらの民話を話されているのは、全員「和の昔コ」というグループに所属しておられる語り部の方たちです。 「和の昔コ」の津軽地方の民話を語り継ぐ活動は、代表者の佐藤ツリさんにより2003年頃に始められました。 「和の昔コ」は弘前周辺の地域を拠点とし、約300人のメンバーで活動しています。 グループは老健施設、デイサービスセンター、公民館、そして社会福祉協議会のイベントにて津軽弁による民話を披露しています。 また、地元放送局からの依頼を受け民話を語ったり、方言研究者及び詩人である渋谷伯龍さんと活動を行ったりしています。(多田,2021,p.25)
コーパスのデータに津軽弁の民話を使用することには、メリットとデメリットがあります。 メリットの一つは、民話の持つ豊かな津軽弁語彙です。 民話は津軽弁の独特で古い語彙を含んでおり、津軽弁のコーパス・データベースを作成し始める際の良いデータ源です。 しかしながら、民話の特質上、民話に現れる津軽弁の中には誇張された津軽弁や、日常的にはあまり使用されていない津軽弁もあります。 このような理由でマツノキツリーバンクに現れる津軽弁の例の中には、不自然と思われるものや現在使用されている津軽弁を正確に表していないと考えられるものも含まれますが、ご了承ください。
津軽弁をローマ字表記にする際にはヘボン式ローマ字が使用されています。 これはヘボン式ローマ字が、形態素分析を行う際に使用されているプログラムとファイルとの互換性を持っているためです。 津軽弁の分かち書きと形態素分析には WAKACHI2002 (Miyata 2018)の品詞コードと形態素コードが使用されています。
ツリー分析には現代日本語コーパスであるカイノキツリーバンクに基づいています。 The Kusunoki Treebank (Kainoki 2022) 統語構造は、the Penn Treebank (Bies et al. 1995)にあるタグ付けされた括弧の様式で表現されています。 とりわけ、 the Penn Historical Corpora scheme (Santorini 2010) がアノテーションの ‘様相’ についての情報を提供しています。 情報には以下のものが含まれます:
アノテーションは観察的妥当性を得るために努力して行われており、 同一視することのできる言語の構成要素同士の関係、あるいは言語に関係するプロセスのそれぞれの証明に一貫した言語分析を表示することをめざしています。 またアノテーションは Treebank Semantics (Butler 2015)の手法を使用することで、後続する意味表現の生成のための構文解析を提供します。
マツノキツリーバンクは強力なユーザー interface と結びついています。 このユーザーインターフェースを使用することで、コーパス内にあるアノテーションのあらゆる側面を使用して検索することができます。 特定の検索結果をアノテーションされた形式でダウンロードすることもできます。 検索インターフェースとリンクしているソースデータは、分析における改善点を反映するために常に更新されています。
検索インターフェースは統合された辞書機能を含んでいます。 この辞書機能はコーパス内の英語による語句注釈と結びついており、数字により津軽弁語彙の意味が区別されています。 一例として run1 は、辞書データベース内の人間が走るという行為を表す定義と結びついており、 一方で run2 は車を運転するという行為を表す定義と結びついています。 “ワード” モードはインターフェースの上部にある “word” ボタンを押すことで使用できます。 このモードを使用することで、文中の津軽弁語彙とその語彙の定義を見ることができます。
『The Matsunoki Treebank』を利用した研究成果を発表される際は、必ず下記の情報を明記して下さい。(バージョンやアクセス年月日は適宜置き換えて下さい。)
Gwidt, Vance, Mikoto Ono, Alastair Butler, et al. (2022). The Matsunoki Treebank – a parsed corpus of Tsugaru dialect folktales, Hirosaki University. Available at: tsugaruben.github.io (accessed 28 December 2023).
この作品はクリエイティブ・コモンズ・ライセンスの下でライセンスされている: Creative Commons Attribution 4.0 International License.