先進技術研究

自然言語処理のデータ作成に使うActive Learningのサンプリング方法を改善する -固有表現認識編-

読み込み中...

投稿日 2022/04/12

自然言語処理のデータ作成に使うActive Learningのサンプリング方法を改善する -固有表現認識編-

#NLP

はじめに

こんにちは。戦略技術センター (STC) の梁です。ラベル付け対象のデータ量を減らす技術であるActive Learningに取り組んでいます。

Active Learningは様々なタスクに使われています。今回は固有表現認識の文脈で研究成果を共有します。内容としては、以下のとおりです。

Active Learningに関する背景紹介
固有表現認識におけるActive Learningの課題
予備実験で課題を検証
提案指標の紹介
提案指標の検証実験

背景

機械学習プロジェクトの中、モデルを学習するため、ラベル付きデータを用意しなければなりません。ラベル付きデータはテキストや音声、画像などのデータにタグを付けることで生成されます。この作業はアノテーション作業と言えます。

しかし、アノテーションにかけるコストが大きいという課題があります。そこで、学習効果の高いデータを抽出してアノテーションを行う手法であるActive Learningを適用します。データの学習効果が高いため、少ないデータ量でも高い精度を達成できます。 Active Learningの詳細は系列ラベリングにおけるActive Learningをご参考にしてください。

Active Learningはサンプリングアルゴリズムを対象として、研究を行っています。サンプリングアルゴリズムは様々な指標でデータの学習効果を測ります。よく使われている指標は不確定性指標と多様性指標です。

不確定性指標：モデルの予測結果から、確信度が一番低いデータを選ぶ手法です。不確定なデータを学習することで、モデルの予測性能を上げます。
多様性指標：モデルの予測結果から、多様なデータを選ぶ手法です。「多様」は文、クラスが異なることです。多様なデータを学習することで、モデルの予測性能を上げます。

分類タスクにおけるActive Learningでは、不確定性指標が主に使われてきました。しかし、不確定性指標を使うと、データの多様性が低くなり、モデルの予測性能の低下につながる問題があります[1]。先行研究では、不確定性指標に多様性指標を組み合わせることで、モデルの予測性能を改善しました[1, 2, 3]。

固有表現認識におけるActive Learning課題

固有表現認識におけるActive Learningにも不確定性指標が主に使われてきました。仮説として、固有表現認識に不確定性指標だけを使うと、データの多様性が低くなり、モデルの予測性能の低下につながると考えられます。

しかし、先行研究[6]では仮説を前提とし、検証されていません。そのため、予備実験で仮説を検証します。

予備実験

予備実験の目的は、仮説を検証することです。

検証方法として、分類用の不確定性指標と多様性指標を固有表現認識のデータセットに使い、選んだデータの多様性とモデルの予測性能を確認します。データセットの多様性を測るため、先行研究[3]の測り方を使います。

実験セットアップ

データセット
- OntoNotes 5.0 [11]
- CoNLL 2003 [12]
指標
- 不確定性指標： Entropy [8]
- 組み合わせ指標（不確定性＋多様性）：SUD（Sampling by Uncertainty and Density）[5]
多様性を測る指標
- DB（Diversity of set B）[3]：DBスコアが高いほど、データセットの類似度が高く、多様性が低くなります
モデル
- BiLSTM-CRF[13]
分散表現
- Bert-base-uncased[14]

Active Learningのサイクル[15]では、モデルの初期化はseed dataが必要とされています。 Seed dataは数が少ないラベル付きデータのことです。今回の実験はトレーニングデータに含まれる固有表現から2%の固有表現分のデータを選び、seed dataとして使います。残ったトレーニングデータはラベルなしデータとして使います。

実験結果

各データセットに対し、各指標の計算結果で、学習効果の高いtop2%のデータを選び、DBで多様性スコアを計算します。top2％のデータをモデルに学習させ、モデルの性能（F1スコア）も記録します。実験結果は表1にあります。

（表1：各データセット、各指標ごとのDBスコアとF1スコア）

仮説どおりに、固有表現認識に不確定性指標だけを使うと、データの多様性が低くなり、モデルの予測性能の低下につながることが確認できました。

提案指標

分類タスクで不確定性指標を使う問題が固有表現認識にも存在することが確認されました。分類タスクの解決策を参考にし、不確定性指標と多様性指標を組み合わせるアプローチが期待されます。

そのため、今回は2つの多様性指標を提案します。

分散表現の類似度を用いた指標

分散表現の類似度を用いた指標（以下は「分散表現の類似度」に略す）は各固有表現の分散表現を利用し、固有表現間の類似度を計算します。各固有表現の類似度が低くなるほど、データセットの多様性は高くなると考えられます。

データ \(\ d\)の多様性スコアは次のように定義できます。データ \(\ d\)に属する固有表現集合は \(\ E_d\)、数は \(\ m\)とします。クラス \(\ c\)に属する固有表現集合は \(\ E_c\)とします。

は各クラスにおける固有表現間の類似度のうち、最小値を計算します。

固有表現の類似度は固有表現 \(\ e_i\)の分散表現 \(\ r_i\)を利用し、次のように計算します。

で各データの多様性スコアを計算し、低い順から選びます。

データセット全体の類似度スコアは、各データのスコアの平均値とします。データセットは \(\ D\)、データの数は \(\ g\)にします。

クラスタ内の類似度を用いた指標

クラスタ内の類似度を用いた指標（以下は「クラスタ内の類似度」に略す）は、固有表現の分散表現を利用し、クラスタリングを行います。クラスタ内の固有表現は同一クラスの固有表現と見なします。クラスタの中心から、クラスタ内他の固有表現との類似度を計算し、一番低い類似度をクラスタの多様性にします。クラスタ内の類似度が低いほど、クラスタの多様性が高くなります。すべてのクラスタの類似度が低くなると、データセット全体の多様性も高くなります。

まず、K-Meansですべての固有表現を \(\ n\)個のクラスタにクラスタリングします。 \(\ n\)は固有表現の種別数です。各クラスタの中心点は \(\ e_{cent_k}\)とします。

クラスタリングを実行後、クラスタ \(\ L_k\)とクラスタの中心点 \(\ e_{cent_k}\)を利用し、データ \(\ d\)の多様性スコアは次のように定義します。

データdに属する固有表現集合は \(E_d \ \)、数は \(\ m\)とします。は各クラスタ内、中心点 \(\ e_{cent_k}\)から、クラスタ内の固有表現 \(\ e_j\)までのcosine類似度の最小値を取得します。cosine類似度の計算方法は以下とします。

データセット全体の類似度スコアは、全データのスコアの平均値とします。データセットは \(\ D\)、データの数は \(\ g\)とします。

提案指標の検証実験

目的として、提案の多様性指標と不確定性指標を組み合わせることで、モデルの予測性能への影響を検証します。