国立国語研究所 日本語歴史コーパス |
jump to 2021.03.15
2021.03.05
『日本語歴史コーパス』は、国立国語研究所が、デジタル時代における日本語史研究の基礎資料として開発を進めているコーパスです。
全てのテキストに読み・品詞などの形態論情報が付与されているため、従来の紙の総索引の代わりになるだけでなく、より高度な検索や集計が行えます。
検索ツールとして、国立国語研究所で開発された「中納言」を使っています。
中納言は、無料で使用することができますが、利用者登録をすることが必要です。
https://chunagon.ninjal.ac.jp/
この頁から、日本語歴史コーパスを選択すると、
https://chunagon.ninjal.ac.jp/chj/search に移動します。
中納言オンラインマニュアル https://pj.ninjal.ac.jp/corpus_center/chu-00.html
通常の「文字列検索」に加え、検索条件を複雑に設定できる「短単位検索」や「長単位検索」があります。
まずは、単純に、「文字列検索」してみましょう。検索文字列に「をかし」を入力します。
次に、検索対象を指定します。
奈良時代から、昭和時代までの資料が登録されていますが、奈良、平安時代は、以下の通りです。
「源氏物語」の最初の18帖を指定した後、検索ボタンを押します。
しばらくして、結果が表示されますが、表示項目が多すぎて、読みにくいので、
表示設定を以下の様にします。
すると、結果の表示が、以下のようになります。最初の部分だけを示します。
. 最初の例は、「をかしき」という語が検索されて、
前文脈は、「常よりも思し出づること多くて、靫負命婦といふを遣はす。夕月夜の」
後文脈は、「ほどに出だし立てさせたまひて、やがてながめおはします。かうやうのをりは」です。
同じ文章が、2行示されていますが、上の行では、語素が縦線で区切られています。
検索された「をかしき」という言葉の語彙素は「可笑しい」であることがわかります。
検索された3番目の例は、「をかしう」という語が検索されていて、その語彙素も、「可笑しい」です。
左端の青色表示のサンプルIDを押すと、詳細な文脈情報という窓が表示され、
各語素の品詞などの文法情報が示されています。
.
.
さて、名詞を検索するときは、検索文字列の指定に問題がないのですが、
形容詞や動詞のように活用して文字列が変化する場合に問題が発生します。
中納言では、形容詞や動詞の基本形である語彙素を指定して、検索することができます。
「をかし」の語彙素は、「可笑しい」であることがわかりましたので、
「短単位検索」で、語彙素を「可笑しい」として検索してみました。
すると、検索結果は197件となり、1件減ってしまいました。
原因を調べましたところ、文字列検索「をかし」では、
若君をかしづき思ひきこえたまへる という文章の「をかし」が検索されていて、
検索文字は、「かしづき」となっていて、これがはじかれたということがわかりました。
検索対象を、源氏物語の桐壺とし、文字列「いかまほしき」を検索すると、
「|かぎり|とて|別るる|道|の|悲しき|に|いか|まほしき|は|命|なり|けり|」
が、検索されました。
「詳細な文脈情報」画面を見ると、「いか」は、動詞「行く」の未然形、
「まほしき」は、助動詞「まほし」の連体形と解析されています。
「いく」は、「行く」と「生く」を掛けているのですが、登録できるのは、一つだけなので、
「行く」を選ばれたのだと思います。
コーパスには、現代語訳は入っていませんので、私なりの試訳です。
|最後だから|といって|お別れする|道|は|悲しい|のに|
行きたいのは(この道ではなく) 生きたいのは|命|であっ|たのでした嗚呼|
また、検索範囲を、萬葉集全体とし、検索文字列を「与妹」とし、対象文字列を原文として検索すると
「与妹」は、「よ妹」ではなく、「妹と」と逆順で、読み下されるため、登録上工夫されているのがわかります。
ただし、4番目の「将死与妹常」は、前半の「将死与」が、「(まさに)死なむよ」で、
後半の「妹常」が、「妹と」と読まれたことがわかります。
検索文字列を「妹与」として、検索すると
すべて、「妹与」は、「妹と」と読まれていて、問題はありません。
ご意見等がありましたら、think0298(@マーク)ybb.ne.jp におよせいただければ、幸いです。
ホームページアドレス: https://think0298.stars.ne.jp