画像認識とは、画像から特徴をつかみ、対象物を識別するパターン認識技術の一つです。
具体的には例えば、画像に映っている物体は何であるか、という判断をコンピュータに行わせ画像を認識させます。人間は写真などの画像を見れば、どのような場所に何が映っているか、自身の経験から推測することができます。
しかしながら、コンピュータには人間のような記憶の蓄積や経験はありませんから、もしコンピュータに「猫」の画像をただ与えても、コンピュータはそれを「猫」だと認識はしてくれません。
そこで、画像認識ではコンピュータにデータベースから大量の画像を与え、対象物の特徴をコンピュータに自動的に「学習」してもらいます。すると、コンピュータは画像データから猫の特徴を「理解」し、同じ特徴を持った画像が与えられれば、それを「猫」だと推測することができます。
近年この画像認識の分野はAIにおけるディープラーニング技術の向上により、急速に発展しました。この記事では今ホットな技術領域である画像認識について、その仕組みや歴史、その活用例について、丁寧に解説していきます。
▷関連記事:AI(人工知能)を説明できますか?
■目次■
1.画像認識とは?
2.画像認識の仕組み
ー画像認識の手法ー機械学習
ー画像認識の精度を高める「ディープラーニング(深層学習)」
ー画像認識のプログラミングに適しているPython
3.画像認識の歴史
ーもっとも古い画像認識「バーコード」
ー画像を単純に比較する「テンプレートマッチング」
ー画像認識を飛躍的に向上させた「ディープラーニング」
4.画像認識の種類と機能
ー物体認識
ー顔認識
ー文字認識
5.AIを生かした画像認識と一般的な画像認識の違い
6.画像認識の発展の理由
ーAI技術の発展
ー画像認識とディープラーニング
ービッグデータの出現
ー高精度カメラデバイスの普及
7.画像認識で解決できる課題
8.画像認識を活用した最新事例
ーOsaka Metroが顔認証を用いた次世代改札機の実証実験を開始
ーヤマダ電機の顔決済
ーコミュニケーションロボットに画像認識機能を搭載
ー顔認証+検温で感染症対策
ー顔認証が進める美容チェーンにおけるDX
9.画像認識の未来
10.まとめ
画像認識ではコンピュータに画像から特徴量を抽出させ、その特徴量をもとにその画像が映っているものを判断してもらいます。
ただし、コンピュータの判断の仕方は人間のものとは異なります。画像を表すピクセルデータに対し何かしらの演算を行い、特徴量を算出するという数学的な方法をとります。
ここでは、どのような仕組みで画像認識ができるのか解説します。
コンピュータにとっての画像認識能力の向上とは、その演算方法や、演算に使用するパラメータの変更を意味します。つまり、できるだけ精度よくコンピュータに画像認識してもらいたいなら、その計算モデルやパラメータをできるだけ質の高いものにする必要があります。
そのためには何をしたらよいでしょうか?
すぐ思いつく一つの方法は、良い正答率が出るまで人間が演算方法やパラメータを調整することです。しかしこれでは途方もなく労力を要し、効率的ではありません。そのため、画像認識では「機械学習」を行わせます。
機械学習とは、コンピュータが自ら学習していくシステムのことです。この方法では、コンピュータがどのように演算を行っていくかと、どのようなルールに従ってパラメータを修正するかだけを人間が設定し、あとは機械が大量のデータをもとに自動的にパラメータを修正していき、最適化してくれます。
学習が進むにつれコンピュータの認識率は向上していき、最終的には画像データから特徴を抽出し、正確な判断ができるようになります。ただし、コンピュータも与えたモデルが適さなかったり、データの量、質が悪いとなかなか画像の認識精度を上げることができません。そのため目的に合わせて適切なモデルとデータセットを選択する必要があります。
画像認識では畳み込みニューラルネットワークと呼ばれるネットワークモデルがよく使用されます。このモデルは、人間の脳内の神経回路網を表現したニューラルネットワークと呼ばれるネットワークモデルの発展版です。このモデルの特徴は、画像のピクセルデータを人間が抽象ベクトルに変換せず、画像データのままコンピュータに特徴抽出を行なわせることです。
畳み込みニューラルネットではまず、画像データの一部分にフィルタをかけ演算し、その領域をスライドさせて繰り返していく「畳み込み」を行い、特徴マップを生成します。この処理によって、画像が持つ局所的な特徴を抽出することができます。このようにしてコンピュータは画像の特徴を繰り返し抽出し対象物を推測し、また正解データで答え合わせをして学習しながら、画像認識の精度を高めていくのです。この多層化されたニューラルネットワークの学習の仕組みをディープラーニングと呼んでいます。
ちなみに、画像認識を含むAIのプログラミング言語として、最近ではPythonが主流になっています。皆さんも名前ぐらいは聞いたことがあるでしょう。
このPythonは、少ないコードで簡潔にプログラムを書けること、専門的なライブラリが豊富にあることが特徴として挙げられます。Pythonは、コードを書きやすく読みやすくするために生まれたプログラミング言語なので、だれが書いても同じようなコードになるようになっています。つまり汎用性があるということです。
また、Pythonはweb上に数万にも上るライブラリが存在します。既存のライブラリを有効活用することで、自分の作りたいプログラムを作成することが容易にできるのです。Pythonによって開発された代表的なWebアプリケーションとして、Instagram、YouTube、Evernote、DropBoxなどが挙げられます。
Pythonは、機械学習を用いたソフトウェアの開発の分野で広く活用されています。コードが簡潔であるだけでなく、初めて機械学習を学ぶ人にとっても習得しやすい言語であるため、機械学習を学ぶ際には基本のプログラミング言語といえます。代表的なものとして、TensorFlow(テンソルフロー)という機械学習ライブラリがディープラーニングの分野で活用されています。
ちなみにトリプルアイズ では、Python学習も含むAIエンジニア育成プログラム「AT20」を提供しております。
通信教育方式で毎週の課題をこなしながら実務で通用するAIエンジニアリングの技能を身につけるこのプログラムは、入門コースからエンジニア中級コースまで、習熟度に合わせて学習スケジュールを決められる4つのコースを設けておりますので、AI学習にご興味ある方はお問い合わせください。
ディープラーニングの登場によって近年話題となっている画像認識ですが、実は昔から存在し、意外にも歴史の古い技術になります。
現代では、画像認識には機械学習と呼ばれるパターン認識技術が当然のように使用され、さらにはディープラーニングの登場により、人間に近い画像認識率を示すまでに至っています。
しかし、コンピュータが画像を認識することは、照明の明るさやピントのずれなどの画像のノイズ、対象物の向きなどの影響を受けやすいといった問題も多く、そもそもは容易なことではありません。ここではその画像認識発展の歴史の一部を振り返っていきます。
もっとも古い画像認識では1940年代の「バーコード」があります。バーコードとはバーとスペースの組み合わせにより、数字や文字を機械が読み取れる形で表現したものです。これをバーコードスキャナと呼ばれる光学認識装置を使って読み取ります。
見かけは画像と呼ぶにはシンプルすぎると感じるかもしれませんが、画像のパターンから情報を読み取っている点ではこれも立派な画像認識といえます。
従来の画像認識ではテンプレートマッチング等が使用されてきました。これは画像に映る物体の位置を検出する画像検出と呼ばれる技術の一つです。
この方法では検出したいものの画像そのものをテンプレートとし、対象の画像の一部分との類似性を、その領域をスライドしながら単純に比較していきます。この方法によって、対象の物体が画像内のどこに映っているか、いくつ映っているかといった情報を画像から抽出することができます。
しかしこの方法は照明変化が大きい場合など、テンプレート画像からの変化が激しい場合に、認識率が大きく下がってしまう弱点があります。また認識したい対象ごとにテンプレートが必要という点に関しても、有用性に問題があります。
2000年代になると計算機の発展により、データを高速に処理可能になりました。この変化により大量の画像データを用いた機械学習による画像認識を行うことが可能となり、画像認識技術はそれまでの人手によるルールやモデル構築からパターン認識へと移行していきます。
そして2012年、ディープラーニングが登場し世界に衝撃を与えました。画像認識コンテストILSVRCで、カナダ・トロント大学のヒントン教授らのグループが画像認識に対して初めてディープラーニングを適用し、一年前の優勝記録の誤り率から4割も削減し、圧勝しました。
▷参考:https://www.cs.toronto.edu/~hinton/
またその一方でGoogleは同年、人が教えることなく、ディープラーニングにより、AIが自動的に猫を認識することに成功しました。このようにディープラーニングは画像認識の領域で大きな成果を上げ、その能力の高さを世の中に見せつけます。さらに2016年のアルファ碁の登場で第三次AIブームが到来し、今日では画像認識AIはすでに産業界で実用化される段階にまで到達しました。
▷関連記事:画像認識技術の違いがわからない
ひと口に画像認識技術といっても、画像の種類によって対象の形状や色、複雑さ、データの数などで差が生じます。そのため扱う画像データによって技術領域を分類することができます。ここではその代表的なものを簡単に紹介していきます。
物体認識とは、例えばある物体と同一の物体が画像中に存在するか検証する、画像に映っている物体のカテゴリを言い当てるなど、画像に含まれている物体の情報を抽出する技術です。
この物体認識において重要となる技術として、物体検出と呼ばれる技術があり、しばしば両者は区別して使われます。
物体検出は画像中の対象物体の位置を検出する技術であり、物体認識とは実行方法が異なりますが、対象となる物体の特徴を抽出する際その物体の位置はしばしば重要となるので、併用されることがあります。
顔認識は顔画像から目立つ特徴を抽出する技術です。顔認識を利用すれば、顔の識別、照合や似た顔の検索、顔のグループ化などが行えます。
人間の表情から感情を読み取る感情認識についても研究が進められています。また物体認識の場合と同様に顔検出と呼ばれる技術もあり、やはり併用されます。
文字認識とは、紙に書かれた手書きの文字や、印刷文字などを判別する技術です。これにより、例えば画像内のテキストを抽出することができます。古くから研究されている分野ですが、最近では翻訳技術と合わせたシステムが実現されるなど、利用用途の多い技術でもあります。
ここまで画像認識やAI、ディープラーニングなどに関して書いていきましたが、改めてAIを導入した画像認識と一般的な画像認識では何が異なるのでしょうか。
そもそも人工知能(AI)とは、人間の知的なふるまいをコンピュータで模倣したシステムを指します。つまり、限定された領域であっても、人間のような知能を持っているシステムのことを意味します。ただの機械であれば、人間が与えた指示の通り情報処理を行うだけです。
ディープラーニングの登場によって、人間によるデータの特徴抽出を行わず、与えられた画像データから最初から最後まで自動的に特徴抽出してくれるようになりました。ここでは人は対象のデータセットの特徴量を定義する必要すらないのです。
そしてそれにより、大量のラベル付けさせたデータと高度なコンピュータの処理能力があれば、高いレベルの認識精度に自動的に到達していきます。ゼロからアルゴリズムを考え出す必要がない分、人間への負担も軽減されます。
これは学習能力のない、または人間が特徴量を定義する一般的な画像認識にはできないことになります。またこの進歩は人の介入を遠ざけることができるという、重要な意味も持ちます。AIの導入によって、機械の物体認識はより人間に近づき、より自律的に考えるように進歩したのです。
画像認識はディープラーニングなどのAI技術と関わりながら発展してきました。ここではなぜ画像認識がAIにより発展していったのかについて背景をみていきます。
1950年代後半からコンピュータによる推論や探索が可能となり第一次AIブームが訪れて以来、AIはブームと冬の時代を交互に経験しました。
そして現在、ディープラーニングの登場をきっかけに、AI、IoT、ビッグデータをキーワードに第三次AIブームが訪れています。
第三次AIブームを巻き起こしたのは、囲碁AIの劇的な進化です。2016年3月10日、韓国ソウルのフォーシーズンズホテルで当時世界トップクラスと目されていたプロ棋士を、天才デミス・ハサビス率いるGoogle DeepMindの囲碁AI「アルファ碁」が負かしました。コンピュータが囲碁で人間を超えるのは10年以上先と見られていたので、その急速な進化に世界は驚かされたのです。
現在、三度目のブームを迎えた人工知能は画像処理や音声処理、自然言語処理などのあらゆる分野に適用されています。
トリプルアイズ では、2014年から囲碁AIの研究開発を進めてまいりました。画像認識技術の基礎研究は囲碁AIによって鍛えられると考えたからです。前述のGoogleやFacebook、テンセントなど名だたる世界企業と競い、2019年には世界大会で2位という好成績をおさめることができました。
囲碁AI開発で培った技術力が実を結び、2019年には、「画像認識プラットフォーム・AIZE」をローンチし、顔認証AI技術をビジネスや社会に提供しています。
昨今話題となっているディープラーニングですが、実は提案されたのは2006年であり、2012年のILSVRCで話題になるまで随分と時間を要しています。これは、ディープラーニングでは過学習が起こりやすいことが原因にあります。
そのためディープラーニングの適用には工夫が必要となりますが、画像認識で用いられている畳み込みニューラルネットワークでは多層にしてそのまま学習が行えるため、明らかに性質が異なります。
この相性の良さにより、ディープラーニングは画像認識領域で頻繁に使用されてきました。このことが近年の画像認識技術の大幅な進歩につながったのです。
画像認識おいて、コンピュータが学習するためには大量の画像データが必要になります。インターネットの普及によって、それが可能になったことで、ディープラーニングの精度が高まりました。
インターネットなしに猫の画像を集めるのは限りがありますが、インターネット上では瞬時に猫の画像を何千万枚も取得することができます。大量のデータを与えれば与えるほどAIは賢くなります。
今後、5Gによって高速大容量通信が可能になることで、ますます画像認識の技術は発達していくでしょう。
スマホで画像や動画を撮ることが当たり前の世の中になりました。画素数の飛躍的な増大で分かるとおり、その性能はデジタルカメラに劣ることはありません。しかも撮った画像はすぐにSNS上にアップされます。
また、カメラはスマホに限らず様々なものに搭載されるようになりました。いつでもどこでもどこからでも画像がweb上に送られる環境が整ったことで、画像認識AIの学習機能が飛躍的に高まりました。
画像認識技術の発展は、ひとえにディープラーニングのおかげと言えるでしょう。そしてディープラーニングが数年であっという間に実用化できた背景には、「ビッグデータの取得が用意になったこと」「アルゴリズムの最適化」「計算資源としてのハードウエア(PC)の高速化」が挙げられます。
顔認証の分野は、2020年から始まったコロナ感染症の世界的な流行により、大きな転機を迎えました。世界中の人々がマスクをすることによって、顔認証の精度が著しく低下してしまったためです。
そのため、国内外のAI企業は、マスク装着時の顔認証精度向上に努め、これによって顔認証の技術は1段階上のレベルへと到達する事ができました。大きな危機を迎えることによって、イノベーションが起こったのです。トリプルアイズ でも、2021年4月には顔認証マスク装着バージョンをリリースしました。詳しい開発の経緯は下記でご覧ください。
「マスクでも顔認証が可能に 〜AIエンジニアに聞くコロナ禍でのAI技術の進化」
画像認識技術が発達したことによって「コンピュータが眼を持った」と言われるようになりました。しかも、見る能力においては人の目よりも高精度であり、解析の能力においては人間を遥かに凌駕する演算能力を有しています。
この画像認識技術によって、下記のような課題が解決されると期待されています。
画像認識技術によって省力化、生産性向上につなげます。
画像認識技術によって無人化を進め、人手不足解消に寄与します。
画像認識技術によってこれまで人の能力では不可能だったことを実現します。
画像認識技術は身近なところに使われています。ここでは、顔認証技術を用いた課題解決の実例を紹介します。
引用元:https://www.osakametro.co.jp/
Osaka Metro(大阪市高速電気軌道株式会社)は、顔認証を用いた次世代改札機の導入に向けた取組みを進めており、2019年12月10日(火曜日)から御堂筋線大国町駅など4つの駅で社員を対象とした実証実験を行っています。
改札機に備えつけたカメラで顔を捉え、事前登録した顔写真データと照合・承認により改札ゲートを開閉するという仕組みです。Osaka Metroでは、2024年度には全駅で顔認証によるチケットレス改札の導入を目指しています。
▷参考:顔認証を用いた次世代改札機の実証実験を開始します(2020年9月30日変更)
引用元:https://www.yamada-denki.jp/
2020年2月28日、大手家電量販店のヤマダ電機は量販店では日本で初めてとなる顔認証決済サービス「ヤマダPay」をスタートしました。
お客さんは、あらかじめスマホから自分の顔画像を登録しておくことにより、来店時にはタブレットに顔をかざすだけで買い物ができる仕組みです。財布もカードも不要な新しい消費スタイルが登場しました。この本人認証を受け持つ顔認証AIにはトリプルアイズの画像認識プラットフォーム・AIZEが採用されています。
参考:LABI カード会員「ケータイ de クレジット」に顔認証決済サービス「ヤマダ Pay」導入のお知らせ
参考:5分でわかるAIZE
参考:顔認証のAIZE・AIを使った課題解決型顔認証ソリューション
可愛い身振りで応答するコミュニケーションロボットSota(ヴイストン社)に、新たに画像認識機能が搭載されました。目の機能を受け持つ画像認識機能はトリプルアイズの画像認識プラットフォーム・AIZEが採用されています。
受付や店頭でお客様の顔を覚えて応答することで、接客機能が大幅に向上しました。またお店の管理画面には来店客の属性がデータとして蓄積され、店舗運営に役立ちます。このAIロボットは、銀座メガネ全店に導入され活躍しています。
コロナ禍において、非接触で簡単で、かつ精度が高い検温システムが求められています。顔認証と検温機能が一つになったサーモグラフィーは、飲食店や美容院、工場、学校、病院など様々なシーンで利用されています。
画像認識プラットフォーム・AIZEが搭載されたAIZE Biz+は、管理画面に顔画像と時刻、体温が表示されることから、万一感染者が発生しても、2週間前に遡ってトレースすることができます。
参考:コロナ対策だけじゃ終わらない。ビジネスの常識が変わりはじめた今こそAI導入を!
北海道から福岡まで全国21店舗を展開するシェアサロンGO TODAY SHAiRE SALONでは、タブレットでの来店受付、スマートマットでのシャンプーなどの自動発注、さらに自社アプリの開発を進め、多くの業務を自動化しています。タブレットの受付は一般企業ではよく使われるがサロンでは珍しいもの。スマートマットはホテルなどでよく使われるシャンプーの中身が空に近づくと自動で発注してくれるツールです。
さらにコロナ禍において、スマートでスムーズな感染症対策ツールとして、AIZE Biz+を導入しました。メインクルーの出退勤と検温が1台の端末で完結するとともに、お客様や関係業者を含む、店舗に出入りするすべての人の検温が1台で完結。
また、AIZE Research+を併せて導入することで、メインクルー・お客様の属性データの取得ができ、顧客管理や新サービス導入の際のマーケティングデータとしての活用が可能となりました。
シェアサロンという、美容師の働き方を大きく変えるビジネスモデルを開発した同社にとって、顔認証をはじめとするITツールはもはや欠かせないものになっています。
画像認識技術はAIの導入とともに大きく発展しました。物体認識AIは人間と互角の正答率を示し、すでに各業界で実用化が進められています。またIoT技術の発展やビッグデータの活用によって、さらに画像認識技術の活用の幅は広がっていくことが予想されます。
そして顔認識の精度向上や感情認識技術の確立などの技術的な進歩や、動画データなどに対し音声データや言語翻訳におけるAI技術と合わせた技術の開発により、さらなる盛り上がりが期待されます。
画像認識について理解が深まったでしょうか?画像認識の技術は、すでに街中の至る所で用いられていますが、その技術はAI(人工知能)のディープラーニングの進化とインターネットによって持たらされたものです。
画像認識技術によってコンピュータが眼を持つことができました。その眼は大量のデータを高速で処理できることや精細な分析機能を持つことから、すでに人間の眼を超えていると言っていいでしょう。
顔認証技術が普及することで、本人認証がポイントとなる行政サービスや金融サービスがガラッと変わることでしょう。コンビニの決済や駅の改札も顔パスになるのはそんなに遠いことではありません。
もっと詳しく画像認識のサービスを知りたい方はこちらまで。