人や場所、環境に合わせて。人工知能によるやわらかな画像認識【幡⾕ ⿓⼀郎さんインタビュー】

Update:2021年4月19日 / Category: News


価値交換工学RAである幡⾕ ⿓⼀郎さん(情報理⼯学系研究科創造情報学専攻 中⼭英樹研究室)に、ご自身の専門分野や価値交換工学 萌芽研究のテーマについてお話を伺いました。

日本だと見慣れない食べ物が並ぶ海外市場の風景。カテゴリーは、人や場所など様々な要因で柔軟に変わるものであることがわかる。

-最初にご自身の専門分野について教えてください。

画像を認識する人工知能の研究をしています。身近な例でいうと、スマートフォンで撮った写真の被写体が何かわかるアプリがあると思うのですが、その裏で動いている「被写体が何であるか認識するための人工知能」を作っています。

-人工知能に興味を持たれたきっかけは、なんだったのでしょうか?。

小学生の時に見たロボットや特撮が最初だったと思います。中高生の頃にあった脳科学ブームの影響もあって、ヒトの脳に興味を持ち、知能とは何だろうと漠然と考えていました。脳科学だと知能を見つけることに軸がありますが、そこから実際に知能を作るという人工知能の研究に辿り着きました。

価値交換工学 萌芽研究の研究テーマである「やわらかな画像認識の実現に向けた基盤技術の開発」について、具体的な内容を教えてください。

画像を認識する人工知能を作るには、写真とそこに何が写っているかという情報(カテゴリー)のペアをたくさん用意して、1枚1枚に写っているものを学習させていきます。この学習に使用する写真は、人手でカテゴリー分けをする必要があり、このような画像を「ラベル付き画像」と呼びます。それに対してスマホで撮影して、そのままカメラロールに入ったままになっているような、何が写っているかの情報が与えられていない画像は「ラベルなし画像」と呼びます。

高性能な画像認識を実現するためには、ラベル付き画像ができるだけたくさんあった方が良く、画像認識の研究によく用いられているデータは、100万枚の画像を人手で1000カテゴリーに分類しています。こうしたラベル付き画像のデータセットを作るためには、世界中から人を集めて、写真に何が写っているか記入してもらう作業をするのですが、そうすると当然世界中の人がわかる情報のラベルしかつけられず、万人がわかる”標準化された情報”しか扱えなくなります。このように画一的な情報を扱う画像認識を私は「かたい画像認識」と呼んでいます。しかし、本来は認識の際のカテゴリーは人や場所など様々な要因で柔軟に変わっていくものです。

例えば、私は海外に行くと市場とかスーパーマーケットに行くのが好きなのですが、そこには日本にはあまりない野菜や果物がいろいろあります。地元の人は、私には分からない細かい種類の違いを認識しながら生活していて、カテゴリーは人や場所によって全然違うことがわかります。このような柔軟さを備えた画像認識を作れたらと思い、それを「かたい画像認識」と比較して「やわらかな画像認識」と呼ぶことにしました。

それから、先ほど言ったように人工知能での高精度な画像認識をしようとすると、たくさんの画像が必要になってくるのですが、個人や地域固有のものを扱おうとすると、十分な大きさのラベル付き画像を集められません。そこで、大規模なデータセットをあらかじめ用意することを諦めて、個人や地域の単位で人工知能自身が自律的にインターネットなどから関連する画像を持ってきて人工的なラベル付き画像から学習できるようなことがでればと考えています。

人工知能が自分で学んでいくということですか?

あまりいい例か分からないのですが、多品種のりんごを育てている農家の方が、”りんごの画像認識したい”と思ったとしても、既成の人工知能では品種の区別なく、全部りんごとして扱われることになります。かといって育てているリンゴの写真を沢山撮って学習させるのは大変です。ただ、インターネット上には同じ種類の画像があるので、そういう画像を人工知能が自ら探してきて学習して、自分自身でどんどん賢くなっていくということもやってみたいと思っています。

「やわらかな画像認識」というネーミングにはこだわりが?

先ほども述べた、これまで研究されてきた画一的で「かたい」カテゴリを扱う画像認識に対して、自分の研究を表現するのに「やわらかい」という言葉が的確にシンプルに説明できる言葉だとしっくりきました。それから、多くの社会課題は、個人や地域の固有性といった標準化されていないものをインクルーシブに含むものと考えていて、そうした課題へ研究が繋がっていくために必要となる柔軟さを、「やわらかい」という言葉で表現できているといいなと思っています。

価値ある画像データによる社会課題の解決

zoomのアイコンが面白いなと思ったのですが、何の画像ですか。

画像のスタイルを他のものに移すという人工機能の技術で作成したもので、自分の写っている写真をステンドグラスのスタイルに変更したものです。

このテーマを研究することになったきっかけはなんですか?

画像認識をする人工知能は基本的に先進国で撮影されたのラベル付き画像をもとに訓練されているため、新興国のものは上手く認識できない、という論文を読んだことです。例えば、先進国の白い洗面台に置かれた石けんの写真は認識できるのに、新興国の固形石けんの写真は食べ物と誤認識してしまうというものです。

このように先進国のモノしか認識できないという点が気にかかり、中央集権の人工知能を使うのではなく、分散した地域や個人のレベルに合わせた人工知能を作っていく必要があるのではと思ったのが今回のきっかけです。

他にも興味がある社会問題はありますか?

人類が何度も繰り返している社会問題、貧困問題などの解決について興味があります。また、人種問題やマイノリティをどう取り込んでいくかという点にも着目しています。

研究を進めるにあたり最近注目しているトレンドは?

最近は、画像の情報と言語の情報を両方使った画像認識の研究が出てきています。今回は画像認識だけを扱いますが、言語情報も足すことでより良い人工知能をつくるという発展の可能性も考えています。