はじめに

戦略技術センターでデータアノテーションの研究開発をしている谷口です。この記事では、画像セグメンテーションのアノテーションを効率化する方法について紹介します。 具体的には、SuperpixelセグメンテーションとInteractiveセグメンテーションについて、それらの効果とメリット・デメリットを紹介します。

背景

画像セグメンテーション (以下セグメンテーション) は事前定義されたクラスに、画像のピクセルを分類するタスクです。 実際の画像に対して、セグメンテーションを行った結果は図1となります。図1では各ピクセルをバイクとレーザーと背景にそれぞれ分類しています。 近年、セグメンテーションでは、Deep Learningを用いた方法論が盛んに研究されており、性能も大きく改善しています。

図1. セグメンテーションの例[1]
図1. セグメンテーションの例。[1]より引用

セグメンテーションは、様々なアプリケーションの基礎となる重要な技術です。アプリケーションとしては、自動運転、欠陥検知また、ポリープの検出など様々です。欠陥検知は、品質安定性の改善に利用されます。ポリープ検出は、医療分野で診断の補助や自動化に活用できます。

課題

セグメンテーションで広く利用される教師あり学習は、データのアノテーションコストが高いという課題があります。教師あり学習では、人手でアノテーションしたラベル付きデータが利用されます。セグメンテーションのアノテーションは、一般的に、次の図のように頂点を指定し、ポリゴンを作成します。このアノテーションは、ポリゴンアノテーションと呼ばれます。

図2. セグメンテーションにおけるアノテーション
図2. セグメンテーションにおけるアノテーション

対象となる画像や、アノテーションの方針に依存しますが、アノテーションには数分から数時間の時間が必要になります。Linら[2]は1つのセグメントに対して、1分20秒以上の時間を要したと報告しています。Cordtsら[3]は、速度重視のアノテーションでは1画像につき7分、品質重視のアノテーションでは1画像につき90分の時間を要したと報告しています。次の左の図が速度重視、右の図が品質重視になります。左の画像は奥に見える人などアノテーションされていない部分があります。一方で右の画像は細かい部分までアノテーションされています。

図3. 速度重視と品質重視のアノテーション[3]
図3. 速度重視と品質重視のアノテーション。[3]より引用

解決策

コストを削減するために、アノテーションを効率化する研究が進んでいます。特に代表的な方法論として、SuperpixelセグメンテーションとInteractiveセグメンテーションがあります。これらの手法は一部のアノテーションツールにすでに組み込まれています。次の動画は、V7社のInteractiveセグメンテーションのデモになります。

以降で、それぞれの方法論の概要、効果について説明していきます。

Superpixelセグメンテーション

Superpixelセグメンテーションとは、画像のピクセルを色や輝度などの性質ごとでひとまとまりにする手法を利用して、セグメンテーションを行う方法論です。ひとまとまりにしたピクセルをSuperpixelと呼びます。 対象のオブジェクトに含まれるSuperpixelをすべて選択し、アノテーションを行います。Superpixelセグメンテーションの手法の1つであるSLIC[4]を実際に適用した画像は次のようになります。

図4. Superpixelセグメンテーションを適用した画像
図4. Superpixelセグメンテーションを適用した画像

Superpixelセグメンテーションは、画像の色やピクセルの位置など情報から、教師なしでSuperpixelの構築を行うので、事前のモデル構築などは必要ありません。 Superpixelセグメンテーションには、様々手法がありますが、Stutzら[5]が28種類の手法を評価しています。上記で利用しているSLICは、Stutzら[5]が推奨している手法の1つになります。 SLICはscikit-imageOpenCVで実装が公開されているので、容易に利用できます。 Superpixelセグメンテーションを利用することで、アノテーション時間を50%程度削減できるとされています。Caesarら[6]は図2で示したポリゴンアノテーションと比較して、アノテーション時間が46%削減されたと報告しています。 またAnderbergら[7]はアノテーション時間が48%削減されたと報告しています。 アノテーションを効率化できる一方で、アノテーションしたデータの品質が、劣化する問題[6,7]が報告されています。劣化はセグメンテーションの評価で一般的に利用されている指標であるmIoU (mean Intersection over Union) で2%程度です。

Interactiveセグメンテーション

Interactiveセグメンテーションとは、アノテータから与えられたヒントを活用して、セグメンテーションを行う方法論です。主に走り書き[8]やバウンディングボックス[9]、クリック[10]などがヒントとして活用されています。 例えば、クリックを利用したInteractiveセグメンテーションは次の図のようになります。緑と赤の点がユーザーによるクリックです。緑はオブジェクトであること、赤はオブジェクトではないことを表し、これらの情報をもとに青の領域はモデルによって自動選択されています。

図5. Interactiveセグメンテーションを適用した画像
図5. Interactiveセグメンテーションを適用した画像

Interactiveセグメンテーションは事前に、画像の各ピクセルを前景(foreground)と背景(background)を分類するモデルを学習する必要があります。一般的には、RGB画像とユーザーのヒントを組み合わせた画像を入力として、同じサイズで各ピクセルが前景or背景を表す画像が出力となります。 学習した画像のドメインと、アノテーションする画像のドメインが異なると、性能が低下するとされています。Kontogianniら[11]はドメイン適応できることを報告しています。 Interactiveセグメンテーションを利用することで、アノテーション時間を70%弱削減できるとされています。Benensonら[12]では、バウンディングボックスとクリックを組み合わせたInteractiveセグメンテーションを活用することで、アノテーション時間を67%程度削減できたと報告しています。さらにBenensonら[12]はInteractiveセグメンテーションを活用すると、アノテーションの品質も向上するとしています。品質向上はmIoUで2%程度と報告されています。

比較

以上で紹介したSuperpixelセグメンテーションとInteractiveセグメンテーションのメリット・デメリットをまとめると次のようになります。

メリット デメリット
Superpixelセグメンテーション 事前のモデル構築が不要 アノテーションデータの品質が低下[5,6]
Interactiveセグメンテーション アノテーションデータの品質が改善[9] ドメインが異なると性能が劣化[11]

Superpixelセグメンテーションは導入のコストが低く、幅広いドメインのデータセットで導入しやすい方法論と言えます。一方Interactiveセグメンテーションはモデルを構築する必要がありますが、アノテーションの質が改善するので、特殊なドメインのデータセットでない場合は、こちらを利用するメリットが大きいです。実際PaddleSegでは、一般的な自然画像・動画や、人の顔、医療画像、空中写真などはすでにモデルが公開されており、簡単に利用できます。またKontogianniら[11]はドメイン適応する手法を提案しているので、ドメインが異なる場合でも利用可能です。

まとめ

画像セグメンテーションにおけるアノテーションの効率化についてまとめました。効率化の方法論として、SuperpixelセグメンテーションとInteractiveセグメンテーションについて、それぞれの効果、メリット、デメリットを紹介しました。これらの調査結果が、アノテーション効率化のお役立てれば幸いです。

参考文献

  1. The PASCAL Visual Object Classes Challenge 2012 (VOC2012) Development Kit (Everingham and Winn, 2012)
  2. Microsoft COCO: Common Objects in Context (Lin et al., 2015)
  3. The Cityscapes Dataset for Semantic Urban Scene Understanding (Cordts et al., 2016)
  4. SLIC Superpixels Compared to State-of-the-Art Superpixel Methods (Achanta et al., 2012)
  5. Superpixels: An Evaluation of the State-of-the-Art (Stutz et al., 2016)
  6. COCO-Stuff: Thing and Stuff Classes in Context (Caesar et al., 2018)
  7. Error-tolerant Scribbles Based Interactive Image Segmentation (Bai and Wu, 2014)
  8. MILCut: A Sweeping Line Multiple Instance Learning Paradigm for Interactive Image Segmentation (Wu et al., 2014)
  9. Reviving Iterative Training with Mask Guidance for Interactive Segmentation (Sofiiuk et al., 2021)
  10. Annotation of Image Sequences Using Superpixels (Anderberg and Gullmander, 2020)
  11. Continuous Adaptation for Interactive Object Segmentation by Learning from Corrections (Kontogianni et al., 2020)
  12. Large-scale interactive object segmentation with human annotators (Benenson et al., 2019)