データベースサイエンティスト | ディープラーニングの運用

人工知能の運用

人工知能を実社会で運用するにはどのようにすべきかを記載します。

ディープラーニングの社会実装に向けて

ディープラーニングの社会実装に向けては、大きく次の5つのアプローチが重要になっていきます。

AI による経営課題の解決と利益の創出

AIを導入する目的は、単なる手段ではなく、経営課題の解決や利益の創出することです。
AIを活用する際には、具体的な目的を明確にし、そのためにAIが適しているかどうかを検討することが重要です。
AI活用戦略

AIをどう使っていくかを戦略的に考える必要があります。
各産業において、AIの活用例や戦略を検討し、最適なアプローチを採用することが求められています。
法の順守

AIの活用には法的な規制があります。
個人情報保護法、著作権法、特許法などを遵守することが必要です
ビッグデータとIoT (Internet of Things)

ビッグデータは形式を問わない大量のデータを指し、非構造化データも含まれます。
IoTは「もの」がインターネットにつながることを意味します。これらの技術を活用する際には、データの収集と適切な活用が求められます。
ディープラーニングの概要と社会実装

ディープラーニングはAIの一部であり、その社会実装には法的・倫理的な側面を考慮する必要があります。
AIの扱い方について社会全体で議論が進んでいます。

AIと社会

AIを利活用するために考えるべき論点や基本となる概念を国内外の議論や事例として記載します。
AIが生成した創作物はそれを生み出す過程において人間による創作的寄与がある場合において著作物性が認められています。
MicrosoftはAIを人間の拡張といっていますが、2019年に内閣府の統合イノベーション戦略推進会議でまとめた人間中心のAI社会原則では、以下の7つの原則があります。

(1) 人間中心の原則
(2) 教育・リテラシーの原則
(3) プライバシー確保の原則
(4) セキュリティ確保の原則
(5) 公正競争確保の原則
(6) 公平性、説明責任及び透明性の原則
(7) イノベーションの原則

一般社団法人日本経済団体連合会が発信しているAI活用戦略も参考にする必要があります。
機械学習品質マネジメントガイドライン：産業技術総合研究所によって公表されAIシステムのライフサイクルにおける品質マネジメントや品質要求を充足するための必要な取り組みが体系的にまとめられています。
AIはブラックボックス化して人が制御できなくなってしまう恐れがあり、モデルがブラックボックス化する問題には、予測に有効な説明変数が特定できず、予測精度が高くともその根拠を解釈できず誤った出力が得られた場合にその理由の検証が難しくなってしまいます。

AI利活用原則には「適正利用の原則」「適正学習の原則」「連携の原則」「安全の原則」「セキュリティの原則」「プライバシーの原則」「尊厳・自律の原則」「公平性の原則」「透明性の原則」「アカウンタビリティの原則」があります。
AIを利活用するときに留意点を記載します。

サービスとして提供するときはAIの精度が保証できない
→顧客に対して説明・約款への記載
予期しない振る舞いで発生するトラブル
→人が仲介して人とAIのダブルチェックを行ったり、運用やリスクを見積もって保険への加入

法の順守も必要です。 Eメールの内容を学習用データなどの用途で用いることは憲法21条が定めるところの通信の秘密に抵触する可能性があります。
国外でもドイツやEUにおいてはインターネット上のデータや著作物から学習用データを解析することは営利目的の場合まで含め著作権侵害には当たらないです。
史上初めて複数国で合意されたAI原則として人口知能に関するOECD原則があります。

[ロボット]
実世界でロボットの行動が人間や物品に危害を加えてしまった場合のリスクについても検討する必要があります。
ロボットの制御方策を強化学習によって探索する際にシミュレータが用いられる理由の一つとして実際のロボットを稼働させる時間的・金銭的なコストは高くなります。
シミュレータから現実世界への転移を行う際、シミュレータと現実世界との間に生じる際はリアリティギャップと呼びます。

[運転]
自動運転にはレベルがあり、レベル1～5までレベル2まではドライバーによる監視が必要で、レベル3以上はシステムによる監視

レベル1：運転支援
レベル2：特定条件下での自動運転機能
レベル3：条件付き自動運転
レベル4：特定条件下において完全自動化
レベル5：完全自動化

2020年4月に「道路交通法」と「道路運送車両法」が改正され、行動におけるレベル3の走行が可能になったが自動化システム作動中でもドライバーはいつでも運転に戻る準備が必要です。
Waymoは、5時間以上の運転中に自動運転車が収集したセンサデータを含むデータセットをリリースしています。

[IoT]
ドローンでは、150m以上の高さの空域はNGで人・物から30m以内の飛行も禁止です。

[RPA]
RPAは、人が行うことを機械が行う自動化します。

[ビッグデータ]
データベースの著作物や個人情報など考慮する必要があります。
ブロックチェーン(記録の改ざんや不正取引を防ぐ)などの技術でセキュリティを確保する必要があります。

AIプロジェクトの進め方

AIプロジェクトをどのように進めるか、全体像と各フェーズで注意すべき点などについて記載します。
AIを活用する場合、、導入目的として部分を最適するのではなく全体を最適にすることが好ましいです。
設計段階では現実的に目指せる精度を目標としてさらに精度を向上する仕組み作りにしていく必要があります。
共同開発や開発委託においては関係者間の認識の差異が訴訟などの問題に発展する場合があるため細心の注意が必要です。
システム開発には適切に開発作業を進め、専門的な知識を有しないユーザが適切にプロジェクトに関与するように働きかけなければならない義務があり、その義務をプロジェクト・マネジメント義務といいます。
AIシステムの開発では、AIのモデルが運用の過程で更新されるため、契約締結時点で学習済みモデルの性能や効果が評価しずらいです。
データ分析プロセスを標準化したものとしてCRISP-DMがあります。
CRISP-DMの順序として「ビジネスの理解」→「データの理解」→「データの準備」→「モデリング」→「評価」→「展開」
機械学習開発者(ML)と運用者(Ops)が協力して機械学習システムの監視・管理・制御などの運用を統合・推進するというのにMLOpsがあります。
AIの利活用にあたっては業務プロセスをAIに併せて変更するBPRを行う場合があります。
昨今のプロジェクトでは、AIをクラウドサーバで利用してエッジ端末に対してWeb APIでデータ連携を行うようなことが主流ですが、セキュリティの考慮が必要です。
システムのアプローチとして以下があります。

プライバシー・バイ・デザイン
開発段階からプライバシー侵害を予防する考え
セキュリティ・バイ・デザイン
開発段階からセキュリティに配慮したシステム設計を行う考え
バリュー・センシティブ・デザイン
開発段階から価値全般を配慮した考え

データの収集

AIの学習対象となるデータを取得・利用するときに注意すべきことや、データを共有しながら共同開発を進める場合の留意点について記載します。
外部からデータやデータセットを取得・利用する際に注意するべきこととして、著作権法や個別の契約のほかに不正競争防止法や個人情報保護法があります。
学習用データを他社の著作物から作成する場合、一定の要件を満たせば権利者の許諾を得なくとも作成が可能となる著作権法上の例外規定も存在します。
位置情報などのパーソナルデータを利用する場合、個人情報保護法による制約がかかっている可能性がありますので、注意が必要です。
個人情報保護法によって定められる要配慮個人情報を取得する場合、予め本人の同意を得る必要があります。また、金融分野における個人情報保護のガイドラインでは機微情報の取り扱い基準は個人情報保護法が定める要配慮個人情報の取り扱い基準よりも厳格です。
機微情報とは人にあまり知られたくない内容で、特に取扱いに配慮が必要な情報です。
2018年の不正競争防止法改正で、「限定提供データ」の区分が追加され、所定の条件を満たせば秘密管理性がないデータも限定提供データとして保護されます。
収集・生成されたデータは非公知性・有用性・秘密管理性の3つの要件を満たす場合、不正競争防止法上の営業秘密として保護されますので注意が必要です。
共同開発では組織外の情報を取得するオープン・イノベーションがありますが、ベンチャー企業が大企業と連携したことでノウハウを搾取されたといったトラブルが起こる可能性に対する注意が必要す。
AIに関する特許をAI特許もありますので特許法についても考慮が必要です。
AI・データの利用に関する契約ガイドラインが経済産業省からでています。
データセットにはオープンデータセット(企業や研究者が公開しているデータセット)とImageNet(コンピュータビジョン分野がよく知られるオープンデータセット)があります。
学習済みのモデルの中身はプログラムと学習されたパラメータで構成されているため著作権法上の「プログラムの著作物」として保護の対象となる場合があります。
データの件数のほかに、データの網羅性を十分に設計していることが重要です。データの網羅性とは学習に用いるデータが予測環境において想定される状況全体をカバーできているかどうかということです。
データを識別・加工する段階で発生するバイアスのほかに現実の人間社会が内包している偏見や差別意識がデータに与えるバイアスも存在します。
サンプリング・バイアスとは母集団から標本を抽出する際にデータが偏ってしまうことです。

データの加工・分析・学習

集めたデータを加工・分析・学習させるときの注意点について記載します。
産業省のAI・データの利用に関する契約ガイドラインでは、「データ提供型」「データ創出型」「データ共用型」の3つに分けられており、開発プロセスはアセスメント、PoC(新たな概念やアイデアの実現可能性を検証)、開発、追加学習の4段階(探索的段階型)に分かれています。
FATはFairness Accountability Transparencyで、人間中心のAI社会原則の中のAI社会原則において原則が規定されています。
ELSIは新しい科学技術を社会実装する際に生じうる倫理的課題・法的課題・社会的課題を一体的に検討するべきという考えです。
カメラ画像を使用する場合、カメラ画像利活用ガイドブックがあり事業者がカメラ画像を利用する際に配慮すべき事項が整理されています。
学習データセットを作るときに生データにラベル情報などを付加して加工する行為をアノテーションといいます。
特定の個人を識別することができないように個人情報を加工して、その個人情報を復元することができないようにしたものを匿名加工情報といいます。マスキングやK-匿名化などがあります。
学習データの加工の過程や機械学習の設計の過程で問題が生じた結果、学習済みモデルの予測(出力)に好ましくないバイアスがかかってしまうことがありそれをアルゴリズム・バイアスといいます。
お勧め情報などを自動的に推論する協調フィルタリングは一人一人の属性や購買に対していい提案ができずない現象をフィルターバブルといいます。
XAIは予測結果や推定結果に至るプロセスが人間によって説明可能になっている機械学習のモデルです。
データサイエンティストはデータ分析やモデルの構築だけでなく、ラベル作成やデータの利用方法の検討などプロジェクトの初期段階から大きな役割を果たします。
データ分析では、Pythonが近点では多く利用されており、ライブラリが多くOS上に簡単に仮想コンテナが行えるDockerが使われています。
Pythonの内容をWeb上で表示するためにJupyter Notebookがあります。
AIのライブラリで有名なものは、GoogleのtensorflowsやFaceBookのPyTorchがあります。
国内産のものとしてChainerがあり、計算グラフの構築と同時にデータを流して処理を並行して実行する方式、データ構造によってモデルを変えやすいです。

実装・運用・評価

実際にサービスやプロダクトとしてAIシステムを世に出す局面で注意すべきことについて記載します。
学習済みモデルの作物を現行の知財制度で保護する場合、特許権、著作権、営業秘密（不正競争防止法）があります。
学習済みモデルは暗号化や難読化の処理をして秘密管理する必要も考慮が必要です。
データベースの著作物として一定の条件で提供できるデータを限定利用データといい、営業秘密ではないことが前提です。
限定利用データは2018年の法改正でが追加されています。また、オープンデータに関する運用除外も設けられております。
AIを適用した業務プロセスの中に運用時データを記録する仕組みを組み込むことで業務を行いながら新たなデータを収集することができます。運用時に取得されるデータを用いて継続的にAIのモデルを更新していく必要もあります。
各企業が自社の個人情報の収集・利用についての実態を説明するために公開する情報は一般に透明性レポートと呼ばれます。
AI開発で用いられる学習データに関しても個人情報保護法は適用されます。
2018年5月にEU一般データ保護規則(GDPR)で十分性制定(個人データの移転を行うためのデータ保護水準を持つ)について日本とEUで合意しています。
EU一般データ保護規則(GDPR)の保護対象に含まれるものは「位置情報」「遺伝子情報」「クッキー」「IPアドレス」などです。
予期しない振る舞いとしてコンピュータが出力した内容から公平性が欠如するアルゴリズムバイアスがあります。ディープフェイクとは敵対的生成ネットワークなどのようなディープランニング技術を利用して偽物の合成メディアを作り出す技術です。
そのディープフェイクでフェイクニュースが作成されて、嘘のオバマ前大統領のスピーチが有名で、それは悪影響を与えています。
ステークホルダーのニーズを把握していくことが重要です。
AIに対する攻撃手法として敵対的サンプルがあり、敵対的サンプルの敵対的バッチで画像の中に特殊なパターンを加えAIに敵対的な攻撃（Adversarial attacks)をします。入力されるデータやデータセットを介して攻撃が行われる可能性を想定して通信相手の認証・データの暗号化・データ改変の検知行います。
メンバーシップ推論：標的となるAIモデルに正常なデータを入力して推論を実行させその出力を観察して学習用データセットの中に特定のデータが含まれているか否かを推測
ノード注入：ダウンロードした学習済みモデルに対し、そのモデルのネットワークに悪意のあるノードを組み込んでその組み込んだモデルを再配布し利用者が意図しない動作

クライシス・マネジメント

AIプロジェクトにおいてコーポレートガバナンスや内部統制、予期せぬことが起きた場合の対応などクライシス・マネジメント(危機管理)に備えることの重要性について記載します。
AIのガイドラインはコーポレートガバナンスの一巻として企業組織内で実効性を確保したり、内部統制の更新を行うことが望ましいです。
企業として多様性(ダイバーシティ)の対応や予期していないのにコメント欄で批判や誹謗中傷などが集中してしまうような炎上対策も必要です。
個人情報を扱う企業なら透明性レポート(利用者のデータをどう収集し、どう活用したか)の実施状況の公開も必要です。
個人・企業などがAIを利用するよりどころとする原則や指針として前述した「人間中心のAI社会原則」があります。
日米同盟の課題にAI と安全保障・軍事技術があります。
AIを利用して運用の改善やシステムの改修を次への開発と循環に活かすことが必要です。キーワードとして以下があります。

シリアス・ゲーム
教育・福祉・介護などの社会の様々な問題を解決することを目的に開発されたゲーム
SOC2レポート
セキュリティ・可用性・処理のインテグリティ・機密保持・プライバシーにかかわる内部統制の保証報告書
Partnership on AI
世界中の企業・組織・人々から構成される団体で「AI開発におけるベストプラクティスの開発・共有」

← AI(中編)

人工知能の運用

ディープラーニングの社会実装に向けて

AI による経営課題の解決と利益の創出

AI活用戦略

法の順守