※適切なものを選ぶか不適切なものを選ぶか要確認
人工知能をめぐる動向
探索
- 幅優先探索:最短距離でゴールに辿り着く解を必ず見つける
- 深さ優先探索:メモリ消費は比較的少ない
システムまとめ
- 第一次AIブーム(1950年代後半〜1960年代)
- エニアック
- イライザ:あらかじめ用意された回答パターンに従って、人間と対話しているかのような振る舞いをする人工無能
- SHRDLU:プランニングを行う
- STRIPS:前提条件、行動、結果の3つの組み合わせで行動計画を記述する(プランニングを行う)
- 第二次AIブーム(1980年代)
- マイシン:血液中のバクテリアの診断支援
- DENDAL:未知の有機化合物を特定
- 第三次AIブーム(2010年〜)
- 東ロボくん:東京大学に合格できる能力の開発を目指して開発された人工知能
知識表現
意味ネットワーク
- 継承関係:is-a
- 属性:part-of
- 所有:has-a
オントロジー
- ヘビーウェイトオントロジー
- Cycプロジェクト:すべての一般常識をコンピュータに取り込むことを目的としたプロジェクト
- ライトウェイトオントロジー
- セマンティックウェブ:ウェブサイトの情報リソースに意味を付与
- LOD:コンピュータ処理に適したデータを公開・共有するための技術
- ウェブマイニング:ウェブデータを解析して知識を取り出す手法
機械学習の具体的手法
アンサンブル学習
- バギング:全体から一部のデータを用いて複数のモデルを用いて学習する方法。複数のモデルを並列に学習
- ランダムフォレスト:弱学習器として必ず決定木を利用、回帰・分類タスクに利用
- ブースティング:複数のモデルを直列に繋ぎ、前の弱学習器の誤差を補うように学習
- AdaBoost
特徴量の値の範囲を揃える手法
- 正規化:0~1の範囲に変換
- 標準化:平均0、標準偏差1に変換
- 白色化:特徴量間の相関を取り除いた後、標準化
学習の種類
- 教師あり学習
- ランダムフォレスト
- サポートベクターマシン(SVM)
- VAR
- 教師なし学習
- 主成分分析(PCA)
- k-means
- 強化学習
- バンディットアルゴリズム
- ε-greedy方策
- UCB方策
- 方策勾配法:方策をあるパラメータで表現される関数とし、状態価値を最大化するよう学習
- REINFORCE
- Actor-Critic:価値関数と方策勾配法のアプローチを組み合わせた手法
- A3C:Actor-Criticの応用手法
- バンディットアルゴリズム
ディープラーニングの概要
活性化関数
シグモイド関数:ReLUと比較して、勾配消失問題が発生しやすい
深層距離学習
- Contrastive Loss:2つのデータの組みを用いて計算される損失
- Triplet Loss:3つのデータ間の距離から計算される損失
最適化手法
- 勾配降下法
- モーメンタム
- NAG
- AdaGrad
- AdaDelta
- RMSprop
- Adam
- AdaBound
- AMSBound
- 確率的勾配降下法(SGD):一部のデータを使用して勾配を推定。ミニバッチ学習で用いられる。
鞍点:ある次元では極小だが、別の次元では極大
二重降下現象:学習中に減少していたテストデータに対する誤差が一度増加した後、再び減少する現象
偽陽性:予測が陽性、正解が陰性
偽陰性:予測が陰性、正解が陽性
ディープラーニングの要素技術
ネットワークの構成要素
- 全結合層:ある長さの1次元配列を出力ノード数の次元を持つベクトルに変換する処理を行う層
- 畳み込み層
- プーリング層:位置のズレに頑健
- 正規化層
- バッチ正規化:ミニバッチ内のデータをすべて使用して、チャネルごとに正規化する手法
- Atrous Convolution(Dilated Convolution)
- 特徴マップにフィルタを重ねる際に、フィルタの各要素に間隔を設ける
- 同じ要素数でより広い範囲を畳み込む
SENet:Attenitonが導入
ResNet
- スキップ結合
- ボトルネック構造
WideResNet:ResNetにおける畳み込みのチャンネル数を増やした
リカレントニューラルネットワーク
構成要素
- 回帰結合層
- BackPropagation Through Time
代表例
- ジョルダンネットワーク
- エルマンネットワーク
- LSTM(Long Short-Term Memory)
教師強制:前の時刻の出力に対応する教師データを現在時刻の入力として使用する手法
GRU:リセットゲート、更新ゲートによって構成
Transformer
query、key、valueは、Self-Attention機構内で計算
Seq2Seqと同様に可変長の出力を扱うことができる
オートエンコーダー
エンコーダの最終層のノード数は、エンコーダの入力層のノード数より小さくなるように設計
事前学習:あらかじめ別タスクに関する学習を行う手法
積層オートエンコーダ:オートエンコーダを順番に学習させ、それを積み重ねていく
データ拡張
- Paraphrasing:類似した別の単語に置き換える
- Noising:単語の入れ替え、削除、挿入、置換などをランダムに行う
- Sampling:テキストデータの分布を推定し、新しいデータサンプリングを行う手法
- Rotation:画像を回転
- Random Flip:画像を反転
- RandAugment:ミニバッチごとに、適用するデータ拡張手法の候補から一定の個数の手法を無作為に抽出し、一定の強さでデータ拡張を行う
ディープラーニングの応用
- AlexNet:2012
- GoogleNet:ILSVRC2014
- Inceptionモジュールを導入
- ResNet:スキップ結合を採用、ILSVRC2015
- DenseNet
- WideResNet:層数を減らし、畳み込みチャネル数を増やした
- MobileNet:2017年にGoogleによって提案された軽量かつ高性能なCNN
- Depthwise Separable Convolution:同じパラメータ数でより広い範囲の特徴を捉えることができる畳み込み
- Depthwise Convolution:すべてのチャンネルをまとめて畳み込み
- Depthwise Separable Convolution:同じパラメータ数でより広い範囲の特徴を捉えることができる畳み込み
- NASNet:2017年発表
- MnasNet:2018年発表、画像分類タスク
- EfficientNet:2019年にGoogleが発表
画像処理タスク
- 物体識別:物体のクラスを識別
- 物体検出:物体の位置を特定し、クラスを識別
- 2段階モデル:物体位置を特定した後その物体のクラスを識別する。
- FPN
- R-CNN
- Mask R-CNN:インスタンスセグメンテーションを行う
- Faster R-CNN
- 1段階モデル:物体位置の特定とクラス識別を同時に行う。
- YOLO
- SSD
- 2段階モデル:物体位置を特定した後その物体のクラスを識別する。
- 物体認識
- 一般物体認識:一般的なカテゴリ(机・犬など)を判別
- 特定物体認識:ある画像に写っている物体と全く同じ物体が写っているか否か判別
- セマンティックセグメンテーション:画像の画素単位でクラス分類を行う
- SegNet
- U-Net
- PSPNet
- DeepLab:Dilated Convolutionが用いられる
- FCN:全結合層を持たない
- パノプティックセグメンテーション:すべての画素に対して、クラスを識別、物体ごとにIDを付与する
- 姿勢推定
- OpenPose
- 画像生成
- NeRF:他の視点から見た物体の画像を生成
自然言語処理タスク
- トピックモデル:文章が複数の潜在的なトピックから確率的に生成されると仮定したモデル、1つのデータを複数のクラスタに割り当てる教師なし学習
- LDA(潜在的ディリクレ分配法)
- word2vec
- skip-gram:ある単語に対してその周辺の単語を予測するネットワーク
- CBOW:周囲の単語から対象の単語を予測するネットワーク
- PaLM:2022年にGoogleが発表した大規模言語モデル
GLUE:精度評価を行うためのデータセット
fastText:単語をさらに細かい単位に分割することで、訓練データにない語彙に対しても埋め込みを計算できる
BERT:MLMとNSPの自己教師あり学習タスクを解くことで事前学習を行う
音声処理タスク
音素:言語ごとに区別される音の最小単位
音韻:人間が発生する区別可能な音
メル周波数ケプストラム係数:周波数スペクトル(周波数ごとの強さ)におけるスペクトル包絡(音の強さの変化の様子)のピークを示す
CTC:空文字の利用や同じ音素の集約といった工夫
- 音声認識
- Whisper
- 音声生成
- WaveNet
強化学習
Atari2600をプレイできるゲームAI:Ape-X、Agent57、Rainbow(DQNの派生手法など7つの手法を組み合わせたもの)
OpenAI Five:LSTM、PROを用いて学習、マルチエージェント強化学習、Dota2をプレイ
sim2real:シミュレータで学習したモデルを、実世界へ適用すること
ドメインランダマイゼーション:パラメータをランダムに決めて複数のシミュレータを生成
マルチモーダル
Visual Question Answering(VQA):画像と画像に関する質問文を入力として受け取り回答を生成
- Text-to-Image
- DALL-E
- Unified-IO
Flamingo:VQA、OCR、Image Captioning
モデルの解釈性
Permutation Importance:検証データ全体を用いて、個々の特徴量がその程度重要であったか求める
モデルの軽量化
プルーニング:パラメータの一部を削除
宝くじ仮説:元のネットワークと同等の精度を達成できるサブネットワークが存在する
AIの社会実現に向けて
CRISP-DM:データ分析を活用するプロジェクトを推進するための標準的なフレームワーク
CRISP-ML:運用時のモニタリングなどを加味
AIに必要な数理・統計知識
共分散:2つの変数の偏差の積の平均
自己情報量:起こる確率が低い事象ほど大きい値を取る
最尤法:ロジスティック回帰でパラメータを最適化する際に使用
AIに関する法律と契約
- 個人情報
- 個人データ:個人情報データベース等を構成する
- 保有個人データ:個人情報取扱事業者が開示や第三者への提供の停止などを行う権限を有するもの
- 仮名加工情報:他の情報と照合しない限り特定の個人を識別できないようにした情報
- 匿名加工情報:特定の個人を識別できないようにした情報。仮名加工情報より匿名性が高い
- 著作権法
- AIの学習を含め情報解析を目的とする場合は、営利・非営利を問わず、無断で使用可能
- 特許法
- 職務発明:企業などの使用者などにおける従業者などの職務に属する発明
- 不正競争防止法
- 営業秘密
- 限定提供データ
追加学習に関する契約として「保守運用契約」に含めることができる
学習用データセット:発明として認められない
AI倫理・AIガバナンス
個人情報の利用目的を公表しているなど一定の条件を満たすと、必ずしも匿名加工情報に変換する必要はない。
データ窃取:データを入力し、出力を観察してモデルの学習データを推測する攻撃
CCW:自律型致死兵器システムに関する人間の関与のあり方や規制のあり方などが議論


コメント