京都光華女子大学 人間健康学群 ニュース テキストマイニングのご紹介

ニュース

テキストマイニングのご紹介

人間健康学群のブログ(記事)でご紹介のように、データサイエンスが大学、高等学校の教育で重視されています。

データサイエンスの一技法として、「テキストマイニング」があります。テキストは「文字」、マイニングは「発掘」の意味で、テキストマイニングは、膨大な文字情報から有益な情報を発掘する技法となります。テキストマイニングの分析対象として、たとえばSNS上のコメント、商品のレビュー、質問紙調査での自由記述、文学作品などがあります。いずれも膨大な文字情報があり、全文を見ているだけでは把握しづらい全体的な特徴を、テキストマイニングにより瞬時に把握できます。

無料でテキストマイニングできるウェブサイトとして、「AIテキストマイニング by ユーザーローカル」があります。このウェブサイト上に、分析したい文章を貼り付け、あるいはテキスト文のファイルをアップロードすると、すぐに分析結果がウェブ上で出力されます。また、分析結果の図表を電子ファイルとして保存もできます。このウェブサイト上で、太宰治の『走れメロス』の分析結果が分析サンプルとして公開されています。

2020年度はコロナが蔓延し、本学でもオンライン授業となり、2021年度以降も一部科目でオンライン授業となりました。2021年度に、受講生23名に「オンライン授業の良い点」「オンライン授業の大変な点」をそれぞれ200文字程で文章作成してもらい、上記のウェブサイトで分析しました。その結果の1つが、図の「ワードクラウド」です。文字の色分けとして、水色が名詞、緑色が形容詞、赤色が動詞です。文字の大きさの違いとして、頻出度が高い文字が大きく表示されています。

以下は、緑色の形容詞のみ、3つのキーワードを抽出したものです。

「オンラインの大変な点」:聞きづらい、切れやすい、疲れやすい
「オンラインの良い点」:聞き取りやすい、残しやすい、書き直しやすい

大変な点として、2021年度当初はオンライン環境が整備されていなかった家庭では聞き取りしにくく、長時間ディスプレイの視聴で疲れやすいことが推察されます。一方、良い点として、オンライン環境さえ整備されていれば、目前のコンピュータで授業を視聴するため聞き取りやすく、記録しやすいことが推察されます。この簡易分析は、受講生23名と少人数で、200文字程/人と文字数も少なく、単純計算で4,600文字程の文字情報でしたが、本来は膨大な文字情報をデータ収集して分析できます。

テキストマイニングは、図のワードクラウドのように文字情報の頻出度を図で可視化できる点が魅力の1つです。他にも、文字情報中のポジティブ・ネガティブ情報の割合や感情(喜び、好き、悲しみ、恐れ、怒りの5つ)の割合も図で表示できます。また、図だけでなく、どの用語が何回出現したかなど、表でもファイル保存できます。

ぜひ人間健康学群で、ユニークな文字情報を収集して、テキストマイニングで分析してみませんか?全文の傾向が瞬時に把握できて面白いですよ!

文責:酒井浩二

「オンライン授業の大変な点」のワードクラウド

「オンライン授業の良い点」のワードクラウド