AIによる画像認識｜仕組み・活用事例 - 空間情報クラブ｜インフォマティクス運営のWebメディア

近年、地理空間情報も含めたさまざまな分野で活用されている画像認識技術。

対象となる画像や映像に何が写っているのかを機械が識別することで、大量のデータを迅速に処理する技術である。

技術の普及に大きく寄与しているのが、ディープラーニング（深層学習）によるAIの進化だ。

なぜ画像認識が普及したのか

画像収集方法の多様化

画像認識が急速に普及した背景には、地理空間情報の取得方法の多様化がある。

従来から使われていた航空写真や衛星画像に加えて、近年ではドローンが急速に普及し、車両からの画像取得も盛んになり、得られる画像が爆発的に増加しビッグデータ化している。

かつて写真の判読は熟練技術者のノウハウに依存していた。しかしその方法ではリソースが足りないうえ、作業速度にも限界がある。よりリアルタイムに近づいている変化抽出の需要は満たせない。

膨大に蓄積されていく画像を有効活用するには、何らかの機械処理が必須だった。

物体検出・判別精度の向上

もう一つは、AIによる物体検出・判別手法の研究が進み、精度が向上してきていることだ。

画像認識で主に使われるのは、「畳み込みニューラルネットワーク（CNN）」と呼ばれる技術である。

参考

CNNは、AIに画像認識を行わせるための学習手法の一つ。

CNNは通常のニューラルネットワークに比べて計算効率や精度が高くなるメリットがある一方、人間の目で判別できないようなノイズを画像に加えると、パンダをテナガザルと誤認するなど、全く別物として認識するという弱点も持つ。

CNNの学習手順は以下のとおりである。

処理しやすいようにノイズ除去や強調などの事前処理を行う
細分化した画像をずらして移動しながら、パターンの特徴を学習させる
2を繰り返し、画像に何が写っているのかを検出させる

学習素材が多くなるほど精度が向上するため、爆発的に画像が増えていることは技術進化の追い風になっているといえるだろう。

こうした技術がモジュールやAPI、クラウドサービスなど手軽に利用できる形で提供されるようになったことも普及の一助となっている。

活用事例

顔認証

AIによる画像認識といえば、まず顔認証だろう。

私たち人間は、成長段階でさまざまな物体を認識する能力を自然に会得している。とりわけ優れているのは人の顔の認識だ。

英国ヨーク大学の研究によると、人が認識できる他人の顔は平均約5,000にも上るという。

輪郭や髪型、眉毛、目、鼻、口、耳など、顔の構成パーツは変わらないのに、微妙な違いや特徴を見分ける能力が備わっているのだから、人間の能力も捨てたものではない。

一方、囲碁や将棋でプロに勝ってしまう実力を持つAIだが、顔の認識は苦手だという。

AIが能力を発揮するには、事前に大量の学習用データをインプットする必要があるが、学習データに偏りがあれば、判定結果にバイアスがかかることになる。

人の顔はさまざまである。世界の人口は80億人に迫る数字だが、その一人ひとりが異なる顔をもっている。

人種や性別による特徴も含め、偏りのない学習データを用意することは簡単ではない。顔認証は難しい。だからこそ顔認証がセキュリティ上有効だということにもなるのだが。

こうしたなか、世界一とも評される顔認証システム技術を持つのが日本電気（以下、NEC）だ。

認識精度は他社の10倍、照合速度も60万件のデータベースを0.3秒で検索する世界最速を誇り、その技術は東京2020オリンピック・パラリンピックで関係者の会場入場時の本人確認にも採用された。

動画から顔を検出し、同一人物かどうかの判定を行ったうえでドア解錠やアラートというアクションにつなげる。

これによりIDカードの使い回しや盗難によるなりすまし入場、IDカード偽装による不正入場を防止できるようになった。

東京2020オリンピック・パラリンピックでも活用されたNECの顔認証技術
（出典：NECウェブサイト）

NECの画像認識技術は不審者・不審物対策にも実績をもつ。

たとえば、従来であれば監視カメラ映像を目視確認していたが、行動解析技術を活用して不審者・不審物を検出してアラートを出すようにした。

「個人を判別するのでなく、人のかたまりを捉える」というこの技術は混雑状況の可視化や、取り囲み行動から転倒者の存在を把握したり、集団で逃げる行動を捉えて危険事態発生を検知したりすることができる。

こうした技術は南米など海外での市中監視システムで効果を上げている。

NECの群衆行動解析の仕組み
（出典：NECウェブサイト）

こうした顔認証をはじめとした画像認識技術は、安心・安全のためはもちろん、将来的にはイベントでチケットレスの「顔パス」システムとして使われることになるだろう。

一方で、最近JR東日本が顔認識技術を使い、刑務所からの出所者や仮出所者の一部を駅構内で検知する仕組みを導入していたことが個人情報保護の観点から問題となり、「社会的なコンセンサスを得ていない」と撤回する出来事があった。

海外でも米国の警察が顔認識AIを捜査に活用してきたが、人種・性別的なマイノリティほど誤認逮捕など不当な扱いを受けるリスクが大きく、差別的側面を持つとしてIBMがこの分野から撤退。マイクロソフトやアマゾンも慎重な姿勢を示しており、技術の使いどころの難しさも表面化している。

社会的なコンセンサスをどのように形成するのか、あるいはどのようなルールを作るのかが活用への大きな課題だ。

固定資産調査｜家屋の異動検出

地図業界では長きにわたり効率的な地図更新の方法を試行錯誤してきた。

その一つの答えが、AIによる変化の自動抽出だろう。

従来2枚の画像から目視で行われてきた変化抽出が自動化されれば、作業速度や精度が大幅に改善される。

たとえば自治体が行っている固定資産税評価業務は、2つの時期の航空写真を比較し、その変化（家屋異動）を検出する形で実施されている。

目視では膨大な人的リソースを要することはもちろん、判断基準のブレなど精度の問題もある。

これまでも画像の輝度・明度・彩度による分類や面積計算の機械化は行われてきたが、パラメータ設定が難しいなどさまざまな課題があった。ここにニューラルネットワークによる自動抽出を活用することで、速度・精度の大幅な向上を実現している。

固定資産税業務へのAI導入による作業時間の推移
（出典：さいたま市資料）

国土地理院でも、地理的画像のビッグデータ化を踏まえ、AIを活用した地物自動抽出の研究を行っている。

航空写真画像の判読・図化から編集の工程にAIを導入し、地図作成・更新の自動化を試みるもので、研究は「セマンティック・セグメンテーション」という手法で進められた。（セマンティック・セグメンテーション：画像の各ピクセルにラベルやカテゴリを関連付ける手法）

学習手順は以下のとおりである。

建物や河川、道路などを分類する
それぞれの教師データで学習させる
AIで位置・形状を特定し、画素単位で分類する

研究からは、

学習データの多い植生や道路、建物、水域、既耕地については良好な結果が得られる
学習データの少ない擁壁や水制工作物、雪覆いなどの認識は難しい

ことが確認された。

基本図（地形図など）への適用は時期尚早だとしても、更新の迅速さを考慮すれば、災害時の速報版地図の作成には十分使えそうだ。

「セマンティック・セグメンテーション」による変化抽出のイメージ
（出典：国土地理院ウェブサイト）

もちろん、こうした手法で自動更新が可能なのは画像に写っている地物などのジオメトリに限られる。

地図ではジオメトリ以外にもさまざまな意味データ（属性情報）が必要となる（もちろん、こちらもWebクローリングなどさまざまな技術を活用した効率化が図られている）。

しかしジオメトリの自動更新が可能になれば、その分のリソースを意味データに集中でき、より迅速かつ効率的な更新が可能になるはずだ。

ソーラーパネル設備の検出

アメリカでは太陽光発電システムの設置数は147万件にも上り、正確な設置数を割り出すのは困難とされている。

スタンフォード大学の研究チームは、画像認識の学習手法「畳み込みニューラルネットワーク（CNN）」を採用し、衛星画像からソーラーパネルを自動検出する独自のアルゴリズム「DeepSolar（ディープ・ソーラー）」を開発。

DeepSolarを使って、全米147万ケ所にあるソーラーパネルの設置場所とサイズを93%の精度で特定することに成功している。

この研究では、米48州で撮影された10億枚以上の衛星画像をDeepSolarに読み込ませ約1ヶ月かけて分析させた結果、従来モデルに比べてはるかに高精度な数値が得られたという。

DeepSolarの分析データや設置場所をマッピングした地図は「The DeepSolar Project」ウェブサイトで公開されている。

ソーラー設置データベース
（出典：DeepSolarウェブサイト）

研究チームが構築したソーラー設置データベースには、太陽光発電システムの場所、サイズ、居住/非居住などの情報が含まれている。

駐車車両の検出・台数推計

駐車場が写っている衛星画像から駐車車両を検出し、台数を推計する事例もある。

衛星画像の分解能には限界があるため、人が目視で正確な台数を数えることは困難だ。

そこでAIを活用し、画像内の駐車車両をオブジェクトとして抽出するのではなく、画像から駐車車両の台数を直接推定する手法が開発されている。この手法はインフラ点検にも力を発揮しそうだ。

駐車車両の推計イメージ
（出典：パスコウェブサイト）

森林管理

衛星SAR（合成開口レーダ）から取得した画像の解析にもAIが使われている。

土地被覆分類マップを自動生成し、異なる時期のものと比較して土地被覆の変化を抽出するのは、目視では難しいがAIにとっては得意分野だ。

面積推計も可能で、森林域変化のモニタリングでの活用も考えられる。

AI画像解析による土地被覆分類と変化の抽出
（出典：パスコウェブサイト）

農業

農業分野でもAI活用が盛んである。ここで手軽かつユニークな事例を紹介したい。

農家は葉っぱの色や農地の状態からさまざまな情報を得て生育作業を判断しているが、それには農地を頻繁に巡回して観察する必要がある。

一方で農家は担い手の減少もあり、一人当たりの作業は増えるというジレンマがある。

近年はドローンが安価になったことから、農家が購入して飛ばす例も増えている。しかし自分で画像解析して判断するのは、さすがにハードルが高い。

スカイマティクスでは、ドローンで撮影した画像をウェブサイトにアップすれば、最短10秒でAIによる解析結果を返す葉色解析サービス「いろは」を提供している。

解析内容も、キャベツの収量予測からお米の生育判断、タマネギのべと病（カビに起因する病気）診断、ブロッコリーの収穫適期などさまざまだ。

葉色解析サービス「いろは」
（出典：スカイマティクスウェブサイト）

同社では「らいす」というお米の等級判定アプリも提供している。

黒いシャーレに米が重ならないようにまんべんなく配置した状態（約1000粒）でスマートフォンのカメラで撮影し、解析ボタンをタップすると数秒でAIによる解析結果が表示される。

お米の情報（稲刈日・乾燥日・籾摺日・ロット番号・圃場の場所・品種情報）も併せて入力・保存可能で、農場のPDCAサイクルにも活用できる。

価格も月額500円からと安価。こうしたサービスが実現するのもAIの画像認識技術があってこそだ。

米粒簡易等級判定アプリ「らいす」
（出典：スカイマティクスウェブサイト）

一方、学習用データの収集には、ひたすらフィールドを調査するほかない。

同社ではこのサービスを実現するために技術者が膨大な数のキャベツを数え、自らの目で米の等級も判断できるまでになったというから、フロンティアならではの苦労がある。

スポーツ

最後に、スポーツ分野での活用事例を紹介する。厳密にいえば3次元点群データなので、他の事例とは少し異なる。

2018年に国際体操連盟がAIによる採点支援システムを正式に導入した。

富士通が開発したこのシステムは、従来目視に依存していた体操競技の採点を、競技者の動きを3Dレーザーセンサーで点群データとして取得し、数値データとして客観的に分析して支援するものだ。

体操競技は男子が6種目、女子が4種目の計10種目があり、そのうち床と跳馬は男女共通の種目となっている。

採点は技名・難易度（A～I難度）・グループコード（技の系統による区分）が記された「採点シート」に、演技から目を離すことなく書き入れるというアナログ的手法で行われる。

加えて、高速で展開される技を見ながら瞬時に姿勢を判断しなければならないため、審判員には並外れたスキルと集中力が求められることになる。

AI自動採点システムはセンサーで取得した3次元点群データを基に、AIによるソフトウェア処理で骨格のフィッティングを行い、関節の位置の3次元座標を算出。

時系列の骨格の動きと、あらかじめ用意された「技の辞書」とをマッチングして、どんな技を行っているのか、姿勢が規定からどれくらい逸脱しているのかを正確に判定できる。

難しいのは、定性的な採点規則をどのように数値化するかという点だったという。しかし一旦データが視覚化されれば、競技者の過去の演技や、他の競技者との比較もしやすくなる。

選手の練習にも応用できるし、同じデータをテレビ中継に利用すれば視聴者によりわかりやすく競技を伝えられるなど、さまざまな応用にも期待がかかる。

AI自動採点システムの概要
（出典：富士通ウェブサイト）

GISやAI機械学習を使ったシステムのご相談（無料）を承っています。お気軽にお問い合わせください。

相談する