モデルカリキュラムの概論【数理・データサイエンス・AI】

「数理・データサイエンス・AI教育強化拠点コンソーシアム」が公開しているモデルカリキュラムの対応教材の大枠を解説します(2022年9月現在)。

非常によくまとまったカリキュラムである一方、分量が非常に多いです。そのため、全体像を理解した上で学習したい方々に向けてこの記事を書きました。

1. 「リテラシーレベル」と「応用基礎レベル」の概要

あくまで筆者の考えだが、それぞれのレベル別に、以下のような方々に適したモデルカリキュラムとなっています。

  • リテラシーレベル:データを扱う方々(データサイエンティストに限らない)
  • 応用基礎レベル:高度なデータ利活用をする方々(特に、データサイエンティスト)

2. 「リテラシーレベル」教材の全体構成

リテラシーレベルは、以下のような構成になっています。

分類タイトルキーワードの例
1. 社会におけるデータ・AI利活用1-1. 社会で起きている変化・ビッグデータ
・IoT
・AI
・ロボット
・第4次産業革命
・Society 5.0
・データ駆動型社会
1-2. 社会で活用されているデータ・調査データ
・実験データ
・構造化データ
・非構造化データ
1-3. データ・AIの活用領域・研究開発
・調達
・製造
・物流
・販売
・マーケティング
・サービス
1-4. データ・AI利活用のための技術・データ解析
・データ可視化
・非構造化データ処理
・特化型AIと汎用AI
1-5. データ・AI利活用の現場・データサイエンスのサイクル
・流通 / 製造 / 金融 / サービス / インフラ / 公共 / ヘルスケア等における事例
1-6. データ・AI利活用の最新動向・AI等を活用した新しいビジネスモデル
・AI最新技術の活用例
2. データリテラシー2-1. データを読む・データの種類 / 分布 / 代表値 / ばらつき
・相関と因果
・母集団と標本抽出
・クロス集計表
・分割表
・相関係数行列
・散布図行列
2-2. データを説明する・データ表現(棒グラフ、折線グラフ、散布図、ヒートマップ)
・不適切なグラフ表現(チャートジャンク、不必要な視覚的要素)
2-3. データを扱う・データの集計
・データの並び替え
・データ解析ツール(スプレッドシート)
・表形式のデータ(csv)
3. データ・AI利活用における留意事項3-1. データ・AIを扱う上での留意事項・個人情報保護
・EU一般データ保護規則(GDPR)
・忘れられる権利
・オプトアウト
・データ倫理
・AI社会原則
・データバイアス
・アルゴリズムバイアス
3-2. データを守る上での留意事項・情報セキュリティ
・匿名加工情報
・暗号化
・パスワード
・悪意ある情報搾取
4. オプション4-1. 統計および数理基礎・確率
・順列
・組み合わせ
・線形代数
・微積
4-2. アルゴリズム基礎・アルゴリズムの表現(フローチャート、アクティビティ図)
・ソート
・サーチ
4-3. データ構造とプログラミング基礎・数と表現
・計算誤差
・データ量の単位
・文字コード
・配列
4-4. 時系列データ解析・時系列データ(トレンド、周期、ノイズ)
・季節調整
・移動平均
4-5. テキスト解析・形態素解析
・単語分割
・ユーザ定義辞書
・n-gram
・文章間類似度
4-6. 画像解析・画像データの処理
・画像認識
・画像分類
・物体検出
4-7. データハンドリング・データベース(リレーショナルデータベース、SQL)
・プログラミング(Python、R等)
・データクレンジング
4-8. データ活用実践(教師あり学習)・売上予測
・罹患予測
・成約予測
・離反予測
・データの収集 / 加工 / 分析
・単回帰分析
・重回帰分析
・ロジスティック回帰分析
・モデルの評価
4-9. データ活用実践(教師なし学習)・顧客セグメンテーション
・店舗クラスタリング
・データの収集 / 加工 / 分析
・階層クラスタリング
・非階層クラスタリング

3. 「応用基礎レベル」教材の全体構成

分類タイトルキーワードの例
1. データサイエンス基礎1-1. データ駆動型社会とデータサイエンス・データ駆動型社会
・Society 5.0
・データサイエンス活用事例
1-2. 分析設計・データ分析の進め方
・仮設検証サイクル
・様々なデータ分析手法
・様々なデータ可視化手法
・データの収集 / 加工 / 分割/統合
1-3. データ観察・データの集計
・比較対象の設定
・クロス集計表
・データのバラツキ
・ヒストグラム
・散布図
・データの特異点
・相違性
・傾向性
・関連性
1-4. データ分析・単回帰分析
・重回帰分析
・最小二乗法
・ロジスティック回帰分析
・最尤法
・時系列データ
・時系列グラフ
・周期性
・移動平均
・クラスター分析
・パターン発見
・アソシエーション分析
1-5. データ可視化・可視化目的に応じた図表化
・1~3次元の図表化
・適切な縦軸、横軸候補の洗い出し
・不必要な誇張表現、強調表現がもたらす影響
1-6. 数学基礎・順列 / 組合せ
・集合
・条件付き確率
・代表値(平均値、中央値、最頻値)
・分散 / 標準偏差
・相関関係と因果関係
・名義尺度 / 順序尺度 / 間隔尺度 / 比例尺度
・確率分布
・正規分布
・独立同一分布
1-7. アルゴリズム・アルゴリズムの表現(フローチャート)
・並び替え(ソート)
・探索(サーチ)
・ソートアルゴリズム
・探索アルゴリズム
2. データエンジニアリング基礎2-1. ビッグデータとデータエンジニアリング・ビッグデータの収集と蓄積
・クラウドサービス
・人の行動ログデータ
・機械の稼働ログデータ
・ソーシャルメディアデータ
2-2. データ表現・数値 / 文章 / 画像 / 音声 / 動画などのデータ
・構造化データ / 非構造化データ
・情報量の単位
・配列 / 木構造(ツリー) / グラフ
・画像の符号化
・音声の符号化
2-3. データ収集・IoT(Internet of Things)
・エッジデバイス
・センターデータ
・スクレイピング
・アノテーション
2-4. データベース・テーブル定義
・ER図
・主キーと外部キー
・リレーショナルデータベース(RDB)
・SQL
2-5. データ加工・集計処理
・四則演算処理
・ソート処理
・サンプリング処理
・クレンジング処理
・結合処理(内部結合、外部結合)
・データ型変換処理
・データの標準化
・ダミー変数
2-6. ITセキュリティ・セキュリティの3要素(機密性、可用性、完全性)
・データの暗号化 / 復号化
・データの盗聴 / 改ざん / なりすまし
・電子署名 / 公開鍵認証基盤(PKI)
・ユーザ認証とアクセス管理
・マルウェアによるリスク
2-7. プログラミング基礎・データ型
・変数
・関数
・順次 / 分岐 / 反復
3. AI基礎3-1. AIの歴史と応用分野・AIの歴史
・トイプロブレム
・エキスパートシステム
・汎用AI/特化型AI(強いAI/弱いAI)
・フレーム問題
・シンボルグラウンディング問題
・人間の知的活動とAI技術
3-2. AIと社会・AI倫理
・AIの社会的受容性
・プライバシー保護
・個人情報の取り扱い
・AIに関する原則/ガイドライン
・AIの公平性 / 信頼性 / 説明可能性
3-3. 機械学習の基礎と展望・実世界で進む機械学習の応用と発展(需要予測 / 異常検知 / 商品推薦)
・機械学習 / 教師あり学習 / 教師なし学習 / 強化学習
・学習データと検証データ
・ホールドアウト法 / 交差検証法
・過学習
・バイアス
3-4. 深層学習の基礎と展望・実世界で進む深層学習の応用と革新(画像認識、自然言語処理、音声生成)
・ニューラルネットワークの原理
・ディープニューラルネットワーク(DNN)
3-5. 認識・パターン認識 / 特徴抽出 / 識別
・数字認識
・文字認識
・画像認識
・音声認識
3-6. 予測・判断・決定木(Decision Tree)
・混同行列 / Accuracy / Precision / Recall
・MSE(Mean Square Error)
・ROC曲線
・AUC(Area Under the Curve)
3-7. 言語・知識・形態素解析
・単語分割
・係り受け解析
・ユーザー定義辞書
3-8. 身体・運動・AIとロボット
・家庭用ロボット
・産業用ロボット
・サービスロボット
・自動化機械 / センサー / アクチュエータ
・シーケンス制御 / フィードバック制御
3-9. AIの構築・運用・AIの学習と推論 / 評価 / 再学習
・AIの社会実装
・ビジネス/業務への組み込み
・複数のAI技術を活用したシステム(スマートスピーカー、AIアシスタントなど)

最後に

いかがだったでしょうか?

この記事を通して、読者の皆様が「数理・データサイエンス・AI教育強化拠点コンソーシアム」が公開している教材をより効率的に学ぶきっかけになれば幸いです。

この他にも、Twitterにて「データサイエンティスト / エンジニアに役立つ情報を発信中」です。ご興味があれば、ぜひフォローお待ちしております。

参考文献