課題レポートの代筆を90%近い精度で識別可能、コペンハーゲン大学:13万本のレポートでニューラルネットを訓練
コペンハーゲン大学の研究チームは、高校生が提出した課題レポートを読み取り、「本人が書いたものか代筆されたものか」を90%近い精度で識別できるAIプログラムを開発した。
デンマークのコペンハーゲン大学コンピュータサイエンス学部の研究チームはニューラルネットワークを用いてこれまで解決困難だった課題に挑戦した。課題レポートを入力すると、高校生本人が書いたものか、それとも代筆なのかを90%近い精度で見分けられる。
デンマークの高校生の間では、有料のオンラインサービスなどを利用した課題レポートの代筆がまん延しているという。代筆と盗作は検出の難しさが違う。高校で課題レポートの盗作(過去に提出されたレポートからの盗用)をチェックするために使われてきた「Lectio」プラットフォームは有用だが、代筆を特定することは難しいという。
こうした状況を背景に、研究グループ「DIKU-DABAI(Danish Center for Big Data Analytics Driven Innovation)」は数年前から、機械学習とニューラルネットワークを利用して代筆レポートの特定に役立つ「Ghostwriter」プログラムを開発してきた。
デンマークの1万人の高校生が書いた13万本の課題レポートをニューラルネットワークにデータセットとして与え、レポートの書き方を学習した。データセットを提供したのはLectioを開発したデンマークMaComだ。
文章のどこを見ているのか?
Ghostwriterは、ある高校生が新たに提出したレポートを、以前に本人が提出したレポートと比較し、書き方の違いを検出するプログラムだ。コペンハーゲン大学コンピュータサイエンス学部博士課程の学生で、DIKU-DABAIのメンバーであるスティーブン・ロレンゼン氏によれば比較の手法はこうだ。
「このプログラムは、単語の長さや文の構造、言葉の使い方などを比較する。例えば、『for example』が『ex.』や『e.g.』と書かれているかどうかなどもチェックする」
Ghostwriterによる代筆レポートの特定はまだ研究プロジェクトの段階にあるが、ロレンゼン氏は、Ghostwriterがそう遠くない将来に、高校で実際に運用されるようになることもあり得ると考えている。高校が抱えている課題は緊急度が高く、レポートを本当は誰が執筆したのか検証するため、技術開発の成果を迅速に取り入れていく必要があるからだ。
ただし、その一方で同氏は、高校でのGhostwriterの導入前に、この技術をどう適用すべきかについて、倫理的な議論が行われる必要があるとも考えている。
警察の偽造書類の鑑定にも役立つ
Ghostwriterで使用したAI技術は、社会のさまざまな分野に応用できる可能性があるという。例えば、偽造書類の分析を補完する技術として、犯罪捜査に使用される可能性がある。
SNSと組み合わせた用途もある。Twitterを利用した投稿が本人によるものなのか、そうではないのかを判定できるからだ。
DIKU-DABAIグループは、Ghostwriterの開発で得た知見をまとめた論文「Detecting Ghostwriters in High Schools」を、欧州の主要なAIカンファレンスで発表している。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
ヤフーがAI技術をOSSで公開、単語間の関係性を短時間で学習
ヤフーは、分散表現の学習時間を短縮するAI技術「yskip」を、オープンソースソフトウェアとして公開した。分散表現はテキストに含まれる単語間の関係性を学習させ、単語同士の意味の相違を推定する際に利用する技術。既存の技術と同等の精度を保ちつつ、学習時間を短縮できた。AIが実在しない“モデル”の全身画像を生成 開発に利用された「GAN」とは?
データグリッドは、GANを用いて、実在しない人物の全身画像を生成する「全身モデル自動生成AI」を開発した。Google、Cloud AutoMLでテキスト分析と翻訳に対応、認知系AIサービスも強化
Googleは2018年7月24日(米国時間)、年次イベント「Google Cloud Next ’18」で、GoogleCloud Platform(GCP)における認知系AIサービスの強化を発表した。Cloud AutoMLではテキスト分析と翻訳が追加。また、既存の認知系APIサービスにおける強化も発表された。