拡がりゆく半導体応用分野

AI

| 拡がりゆく半導体応用分野トップへ | 索引 | ロボット | IoT/ネットワーク |   | 日本半導体歴史館トップへ|



AI黎明期(1930年代~1950年代)

AI(Artificial Intelligence)という用語は1956年に開催されたダートマス会議の趣意書(1955年発効)で初めて登場したが、広い意味では1940年代に実用化されたコンピュータ・テクノロジをも包括する用語であったといえよう。もともと“computer”という英語は“計算(computation)を行う人”を意味していたが、人間のIntelligenceが行うことと同じcomputationを行う機械にも“computer”と名付けることになった。この観点からは機械の“computer”もAIの一種といえる。現代(2022年時点)のコンピュータやAIはチューリング・マシンであるが、第2次大戦時にエニグマ(ナチスドイツの暗号)の暗号解読機を開発し、後に(1950年)“機械は思考できるか(Can machines think?)” で始まる論文でチューリング・テストを提案したアラン・チューリングは“思考する機械”、すなわち人工知能(AI: Artificial Intelligence)をはじめから構想していたとも推察できる。1943年のマカロックとピッツによる視覚と脳機能を電子回路にモデル化した形式ニューロンも、さらに1946年にノイマンがこの形式ニューロンをヒントにしてプログラム内蔵方式(いわゆるノイマン型)コンピュータを構想したのも、まさしく今でいうAIを目指した提案と観ることができよう。“computer”は日本語では“電子計算機”と訳されたが、中国語の“電脳”はAIという意味合いを含んだ訳語ともいえる。
AIは1960年代の第1次AIブーム、1980年代の第2次AIブーム、2000年代後半からの第3次AIブームと呼ばれる波のようなうねりで発展してきた。以下では、一般にはコンピュータの黎明期とされる1930年代から1950年代までをAIの黎明期と位置付けて、プログラム内蔵方式(いわゆるノイマン型)のコンピュータを始めとして、どのようなキー・テクノロジがAI展開のマイルストーンになってきたのかを振り返ってみることにしたい。
なお日本半導体歴史館の本特別展示では、AIの発展に半導体技術がどのような役割を担ってきたのかにも触れることにした。“思考する機械”であるAIは人間の思考のアルゴリズムを機械に実装することになり、そこでは半導体技術が鍵となってきた。ただ、このAI創世期の主力のスイッチング・デバイスは真空管であり、これが1947年に発明されたトランジスタに置き換わる時代であった。半導体技術がAI発展に大きく寄与するのは集積回路の時代となった1960年代以降であるが、このAI黎明期はAI(コンピュータ)アルゴリズムの急速な発展が集積回路のイノベーションを促す歴史と観ることもできよう。
1936年 チューリング・マシン

アラン・チューリング(Alan Mathison Turing)が、論文 "On Computable Numbers, with an Application to the Entscheidungsproblem"(「計算可能数、ならびにそのヒルベルトの決定問題への応用」を1936年に発表した。この論文で、十分長い1本のテープと読み書きを行う移動ヘッドと有限個の状態を持つ仮想計算機械(チューリング・マシン)を導入して、計算可能な関数を計算するアルゴリズムが存在することを示し、さらに任意の入力で任意のチューリング・マシンをシミュレートする万能チューリング・マシンが可能であることを示した。
現在のコンピュータやAIはこのチューリング・マシンといえる。チューリング・マシンの紙テープはプログラムやデータ、計算結果などが打ち込まれるもので、半導体メモリ(DRAM・NANDメモリなど)に対応する。またテープを読み書きする移動ヘッドと有限個の状態を持たせるものがプロセッサ(MPUやMCUなど)に対応するといえる。
1943年 形式ニューロン

1943年、マカロック(W. S. Moculloch)とピッツ(W. Pitts)によって形式ニューロンのモデルが発表された。多数の入力の線形加重和が、ある一定値を超えるか否かで1か0を出力する線形閾値素子である。神経科学を数学的に記述した最初のモデルであり、形式ニューロンは後のパーセプトロン、それから発展してゆくニューラルネットワークの構成要素となった。ノイマン型コンピュータの基礎となった「EDVAC草稿」では、この形式ニューロンの機能によってチューリング・マシンの移動ヘッドや有限個の状態を制御・演算処理することができるとされ、この処理が真空管によって実現可能とされた。後に真空管に代わってトランジスタが用いられるようになった。1960年代以降のコンピュータやAIでは、この電子デバイスに半導体が用いられることになった。
1945年 サイバネティクスの学際領域

後にサイバネティクス会議とも呼ばれたメイシー会議が1945年に開催された。この会議のきっかけになったのは、1943年に発表された二つの論文であった。マカロック(W. S. Moculloch)等による形式ニューロンのモデル化の論文と、ローゼンブリュート(A. Rosenblueth)、ウィーナー(N. Wiener)等によるフィードバック理論を用いて行動と目的論をモデル化した論文である。この第1回会議には彼らのほかに、社会科学のベイトソン(Gregory Bateson)、EDVAC草稿を執筆していたノイマン(Jhon von Neumann)等、神経科学、精神病理学、数学、工学、社会科学等の多分野の研究者が集まり、生物的科学や社会科学とコンピュータ科学が結合した学際的な議論がなされた。この会議は1961年まで10回開催された。
この過程で、1948年にウィナーによるサイバネティクス(Cybernetics)という用語が誕生し、後のロボット・AI・Iotなどへ発展してゆく学際領域が確立していった。半導体産業の発展もこうした学際的な知的展開に支えられてきたといえる。
1945年 ノイマン型コンピュータの基本構想

1943年に始まるENIACの開発過程では汎用性の不十分さが問題にされており、これらを解決するEDVAC計画が並行して検討された。この検討に参加したジョン・フォン・ノイマン(John von Neumann)によって、1945年にEDVAC計画の基本構想「The First Draft of a Report on the EDVAC(EDVACに関する報告書―草稿)」としてまとめられた。その特徴は、
 1)命令やデータは主メモリ中に記憶されている、
 2)命令とデータは主メモリ中では区別されず、自由に書き換えられる、
 3)命令の解読と実行は逐次的、
 4)命令やデータはメモリ中のアドレスを頼りに読み書きされる、
 5)1つの記憶装置と1つの演算処理装置がある。
この5つの特徴のうち、通常は 1)のプログラム内蔵方式が強調して語られている。これらの特徴があいまって、コンピュータの構造とプログラムに著しい簡略化をもたらした。この特徴を有するコンピュータがノイマン型コンピュータと呼ばれるようになり、広い応用問題を処理できる汎用コンピュータとなった。5つの特徴のどれかが欠ける方式を非ノイマン・アーキテクチャといい、スーパーコンピュータや専用コンピュータにしばしば採用される。1971年にIntelから発表された4ビットマイクロプロセッサ(4004)は、半導体集積回路に実装された最初のノイマン型コンピュータである。
[半導体歴史館 関連資料]
(集積回路)1970年代:マイコンの開発と発展
1946年 ENIACの一般公開(Pennsylvania 大学)

1946年、アメリカで開発された初のコンピュータ、ENIAC(Electronic Numerical Integrator And Computer)が発表された。ENIACはアメリカ陸軍の弾道研究室での砲撃射表の計算向けに設計されたが、パッチパネルによるプログラミングが可能であり、様々な計算が可能な汎用性をもっていた。ENIACはアメリカ陸軍に引き渡され、黎明期のコンピュータとして1955年まで稼働した。
しかしパッチパネル方式のプログラミングは複雑であり、開発過程からより高い汎用性の必要性が指摘され、後のノイマン型と呼ばれるプログラム内蔵方式が誕生する契機となった。
1948年 情報理論

1948年、ベル研究所のクロード・エルウッド・シャノン(Claude Elwood Shannon)が「通信の数学的理論」を発表し、それまで曖昧な概念だった情報について、意味論的情報になる以前のデータ情報を符号化して数量的に扱えるようにした。これにより情報の生起確率から平均情報量(情報エントロピーが定義され、通信路設計において確実に伝送できる情報量の上限やテータ圧縮方法が明らかにされた。この情報理論は、通信やコンピュータ、AI、ならびに半導体デバイスの設計の基礎となった。
1950年 チューリング・テスト

1950年、アラン・チューリング(Alan Mathison Turing)は「機械は考えることができるか?(Can machines think?)」と問うて、それを判定する“模倣ゲーム(Imitation Game)”を提案した。尋問者が人間と機械に同じ質問をして区別ができなければ、機械が思考可能と判定してよいとする提案である。なお、ここでの機械の思考能力とは、「ピカソをどう思うか」のような意見を考えることではなく、“YesかNo”で答えられるような質問を考える能力である。後に“チューリング・テスト”と呼ばれることになった。
チューリングはここでの機械をチューリング・マシンの一種であるデジタル・コンピュータに限定した。すなわち、適切な記憶装置(メモリ)と適切な動作速度を持つデジタル・コンピュータを適切なプログラムによって処理させた場合、この“模倣ゲーム”に合格させられるか、換言すればデジタル・コンピュータが思考可能になりうるか、という問題を吟味したのである。そして、チューリングは“学習する機械(Learning Machines)”の方向性を検討し、20世紀末には“考えることができる機械”が実現できるだろうと推測した。
この後の人工知能(AI)の研究開発はほぼこの論文の方向性に沿って進められたといえよう。そのなかで、半導体技術はデジタル・コンピュータのメモリ容量と動作速度をムーア則に沿って向上させ、“模倣ゲーム”でのチューリング・テストに合格するAIの発展に貢献したといえる。
(参考文献) A. M. Turing: “Computing Machinery and Intelligence” Mind 49 (1950)
1956年 ダートマス会議において「AI」の研究分野が確立

1956年7月から8月にかけて「"The Dartmouth Summer Research Project on Artificial Intelligence(通称ダートマス会議)」が開催された。ジョン・マッカーシー(John McCarthy)が主催した会議で、会議のコンセプト自体はマービン・ミンスキー(Marvin Lee Minsky)、ネイサン・ロチェスター(Nathan Rochester)、クロード・シャノン(Claude Elwood Shannon)らと共に前年の1955年に企画された。その企画書において、「人工知能(Artificial Intelligence)」という用語が初めて使われた。
この会議では下記の7テーマについてブレインストーミング形式で議論された。
 1)Automatic Computers(自動コンピュータ)
 2)How can a computer be programmed to use language?(自然言語処理)
 3)Neuron Nets(ニューラルネットワーク)
 4)Theory of the size of a calculation(計算のサイズ)
 5)Self-improvement(自己学習)
 6)Abstractions(抽象化)
 7)Randomness and creativity(偶発性と創造性)
いずれもAIの基本的な課題であり、第1次第2次第3次AIブームと呼ばれる山谷はあったものの、現在に到るまで人工知能の一貫した学術研究分野として確立されることとなった。半導体産業も1958年の集積回路の発明以降、AIの実現化に関与することになった。
1958年 パーセプトロンの提案

1958年、ローゼンブラット(Frank Rosenblatt)によって視覚と脳の機能をモデル化したパーセプトロン(Perceptron)が提案された。入力層と出力層の2層の形式ニューロンからなるネットワークで、現在では単純パーセプトロンと呼ばれる。n次元の特徴データに対してあるクラスに属しているか否かを判別することができ、パターン認識方法として期待され、1960年代にニューラルネットワークブーム(第1次AIブーム)を引き起こした。
遡れば、1949年に心理学者のヘッブ(Donald O. Hebb)によってニューロン間の結合強度の変化で学習が実現できること(Hebbの学習規則)が示されていた。これを契機にして生物の視覚などの情報処理を工学的に研究する動きが始まり、1960年代前後に工学的な情報処理を行うニューラルネットワークの様々なモデルが提案されるようになった。学習の収束定理を証明したパーセプトロンはその代表例であり、第1次AIブームとなった。
しかし60年代末に、マービン・ミンスキー(Marvin L. Minsky)らによって1, 0の入出力を行う単純パーセプトロンは線形分離可能な問題しか扱うことができないことが明らかにされ、ニューラルネットワークによる並列学習の研究は一時的に停滞した。60年代にはノイマン型のコンピュータ技術が著しく発展し、記号処理による論理的な情報処理がニューラルネットワークよりも遥かに優位になったことがこの停滞の背景にあった。とはいえ2000年代のディ―プラーニングに到るニューラルネットワークの並列学習処理の地道な研究は継続された。パーセプトロンの活性化関数に非線形問題を扱うシグモイド関数は60年代に導入され、パーセプトロンは後のディ―プラーニングに繋がるニューラルネットワークの構成要素になった。
1958年 AI用言語LISP

1958年、マサチューセッツ工科大学(MIT)のジョン・マッカーシー(John McCarthy)が、プログラミング言語のLISP(LISt Processor)を開発した。プログラミング言語としては、FORTRANに次いで2番目に古い言語である。関数型言語でプログラムはS式と呼ばれるリスト形式で表現され、関数のあとにデータを記述するポーランド記法が用いられる。S式は、括弧の入れ子構造で記述するため、プログラムの中には多くの括弧が含まれる。LISPではプログラムとデータの区別はなく、その構造は、二つの要素の組み合わせであるCONS(コンス)セルが基本となっている。CONSセルの要素は、値もしくは次のCONSセルへのポインタであり、このポインタを介すことによって2分木構造のデータを構築できる。値とポインタからなるCONSセルを多数繋げることで、リストが構成される。
LISPは関数定義の中で自分自身をコールできる再帰呼び出しや、記憶領域の動的割付、リスト処理、ガベージコレクションなどの高度な機能を有している。これらの処理はプログラムの記述性が高い半面、汎用計算機のアーキテクチャにとっては負担が大きいため、LISPを処理する専用のプロセッサを開発する動きも現れた。1979年には神戸大学の瀧和夫らのFAST-LISPが発表され、1985年には電電公社(NTTの前身)の電気通信研究所によってELIS(エリス)が開発された。1980年代には、他にも多数のLISPマシンが開発されている。
LISPは記号処理や言語処理に適しているため当初から人工知能関連の分野で使用されてきた。自分自身を評価できる点に特徴があり、LISPシステム自身のソースコードはLISPで記述される。システムに新しい関数を付加することで、次から次へとシステムを拡張することができる。そのため、1970年代から1980年代にかけて多くの方言が出現したが、その後標準化の動きが進み、「Common Lisp」と「Scheme」の二つの流れに収斂されるようになった。Common LISPは、1984年と1994年に ANSI(American National Standards Institute、米国規格協会)によって制定された。Scheme は1975年に開発され、その後 IEEE(Institute of Electrical and Electronics Engineers、米国に本部を置く電気・情報工学分野の学会)によって標準仕様が制定された。

第1次AIブーム(1960年代)と冬の時代(1970年代)

数値計算を中心とする“思考する機械”としてのコンピュータは、1950年代からAI進展の重要な条件とされた自然言語で動かせるようになった。同時に実装技術面でも真空管からトランジスタに置き換わり、さらに半導体集積回路への実装が始まり、速度・消費電力・信頼性・コストが大幅に改善された。これによってAIの高度化への可能性がますます高まった時代であった。1958年の集積回路の発明は1960年代に入って高度化に向けて一層加速することに寄与した。このような展開に加えて、1956年の形式ニューロンを2層化したローゼンブラット(Frank Rosenblatt)によるパーセプトロンは、脳の認識機能に近づける提案として大きなインパクトを与えた。ここに1960年代の第1次AIブームが起きた。「2001年宇宙の旅」のようなSFが生まれたのもこうした背景があったからであろう。
しかし、1968年にそのパーセプトロンでは様々な要素が絡み合っている事象から、二元論的な枠組み(フレーム)によって問題解決に必要な要素を振るい分けることができないというフレーム問題がマッカーシー等によって明らかにされ、第1次AIブームは失速した。いわゆるAIの冬と呼ばれる1970年代を迎えることになった。
とはいえ1970年代は半導体集積回路が3年で4倍に集積度が増加するというムーア則に従った進化が本格化した時代であり、コンピュータの性能が指数関数的に向上した。この高性能化が進むコンピュータリソースを利用して、特定の領域の知識ベース(形式知をルール化して体系化したもの)によって専門化の意志決定をエミュレートする推論エンジンで問題解決を行うエキスパートシステムの研究が行われるようになった。1972年に発表された医療診断用のMycin はその初期の例とされる。1970年代に始まるそのエキスパートシステムは、1980年代の第2次AIブームの契機となった。
ただし、“学習という思考”をする機械への関心が薄れたとはいえ、一部の研究者達が地道に研究を続けていて第3次AIブームになったディ―プラーニングへの道筋を構築していたことも注目すべきであろう。1979年の福島邦彦によるネオコグニトロンの提案もその一例である。
1964年 汎用計算機IBM360シリーズ

System/360は本格的な商用OSが採用された初の汎用コンピュータとされる。ハイブリッド集積回路を使用したシステムである。1/2インチ角のセラミック基板に、ガラス封じの個別トランジスタやダイオードと基板にスクリーン印刷で形成された抵抗などでフリップフロップを構成して、プラスチックか金属でカバーを施した。これをいくつかプリント基板にフリップチップ実装してSLT(Solid Logic Technology)モジュールと呼んだ。SLTモジュールの一方の端にはソケットがあり、バックプレーンにあるピンの位置に挿入する形で実装する。主記憶装置はフェライト磁気コアメモリで構成され、容量は最大8MBまであったが、512kB、768kB、1024kB といった容量が一般的だった。集積回路がモノリシック化されたのは1970年に発表された後継のSystem/370からであり、主記憶装置にはMOSのDRAMが初めて採用された。ムーアの法則に従った半導体集積回路がAIに不可欠なコンピューティング能力を指数関数的に向上させる基盤となった。
1968年 映画「2001年宇宙の旅」

1968年、『2001年宇宙の旅』(原題:2001: A Space Odyssey)と題したSF映画が、アーサー・C・クラーク(Sir Arthur Charles Clarke)とスタンリー・キューブリック(Stanley Kubrick)のアイデアをまとめたストーリーに基いて製作された、この映画では、ディスカバリーと呼ばれる木星探査宇宙船に積まれたHAL9000というAIコンピュータが登場する。HALは人間とコミュニケーションし、自ら思考する高度なAIとして描かれた。最終的に乗務員を殺害するまでになり、AI社会の未来に警鐘を鳴らすSFであったが、多くの技術者がこの映画に触発されてコンピュータやAIの開発に携わるようになった。パーソナルコンピュータの父とも呼ばれるアラン・ケイ(Alan Curtis Kay)もその代表的なひとりである。彼が構想したダイナブックもこの映画からの着想とされる。
1968年 フレーム問題

1958年のパーセプトロン(2層の形式ニューロンからなるネットワーク)の提案によって機械学習するAIシステム開発の機運が急速に高まり、1960年代の第1次AIブームが到来した。ところが、1969年にマッカーシー(John McCarthy)とヘイズ(Patrick John Hayes)によってフレーム問題が提起され、線形素子であった単純パーセプトロンの限界が明らかにされた。フレーム問題とは、様々なファクターが絡み合っている事象において問題解決しようとするときに、重要なファクターと無視してよいファクターを、パーセプトロンを用いたAIでは自律的に判断できないという問題である。つまり、パーセプトロンでは教師あり学習の線形分離可能な問題しか解けない(XOR(排他的論理和)は表現できない)、ということである。これによって第1次AIブームは下火になり、1970年代のAIの冬の時代を迎えることとなった。
それでも一部のニューラルネットワーク研究者たちによるこの問題解決に向けた探究は継続され、2000年代後半のディ―プラーニングを中心とする第3次AIブームに繋がっていった。
1972年 AI用言語「Prolog」

1972年、マルセイユ大学のアラン・カルメラウアー(Alain Colmerauer)とフィリップ・ルーセル(Philippe Roussel)によって、論理型言語のProlog(PROgramming in LOGic)が開発された。数理論理学をプログラミングに応用したものであり、Prologのプログラムは述語論理で記述され、論理式としてそのまま実行される。Prologの処理系は質問に対して回答を繰り返すという対話型の構成になっており、質問に対する答えが知識として蓄積される。
1970年代ごろから、AIの基礎として知識ベースによる自然言語処理が重要と考えられるようになり、専門家の代わりに知識によって推論を行うエキスパートシステムが着目され、Prologはそれを体現するプログラミング言語として期待された。1982年からスタートした第5世代コンピュータ・プロジェクト、すなわち新世代コンピュータ技術開発機構(ICOT: Institute for New Generation Computer Technology)の開発では、Prolog を含む論理型言語が開発課題の中心に位置付けられ、その後10年間にわたって大きな注目を浴びた。そこでは、当時の最先端半導体技術を用いて、Prologによる推論を直接逐次処理するPrologマシンが開発された。
1976年 スーパーコンピュータ

1976年、ベクトル型スーパーコンピュータ「Cray-1」の商用機が出荷された。IBM等による汎用コンピュータに対して、1972年に設立されたクレイ社が科学技術研究用の超高速計算に特化して開発したものである。記号処理による論理的な情報処理を高速化する試みであり、汎用コンピュータに加えて科学技術分野に特化したスーパーコンピュータの市場が拓かれることとなった。
Cray-1では、フェアチャイルドセミコンダクターとモトローラ製の、ECLデュアル5-4 NORゲート(5入力と4入力の2個集積)、アドレスファンアウトに用いる低速のMECL 10K 5-4 NORゲート、レジスタに用いる16×4ビット高速(6ns)SRAM、メインメモリーに用いる1024×1ビット(48ns)SRAMの4種類のICを使用した。全部で約20万ゲートが搭載され、メインメモリーの容量は4MBであった。クロックスピード12.5ns(80MHz)で、演算速度は160MFLOPSを達成した。
1977年 エキスパートシステム

1968年のパーセプトロン(2層の形式ニューロンからなるネットワーク)の限界が明らかにされたフレーム問題によって機械学習への関心が薄れる中(第一次AIの冬の時代)で、特定の専門領域で知識ベースを用いた推論によって問題解決を目指すAIの研究開発が始まった。1965年にスタートしたスタンフォード大のプロジェクトDENDRALがその代表例であり、質量分析結果から化学的知識ベースを用いて有機化合物を特定するシステムが開発された。AI言語のLISPで書かれたシステムである。このプロジェクトから1972年の血液疾患を診断して抗生物質を処方するMycinなど、様々な専門分野のAIシステムが提案された。このプロジェクトの経験から、1977年、ファウゲンバウム(E.A Feigenbaum)は知識ベースから問題解決に導く知識工学(Knowledge Engineering)が提唱され、エキスパートシステムの方向付けがなされた。こうして1980年代の第2次AIブームへの潮流が動き出した。
エキスパートシステムには大規模な知識ベースを扱うコンピューティング能力が要求される。1970年代後半のコンピュータは3.5世代と呼ばれたが、日本では1982年にULSI技術を駆使して1世代飛び越したコンピュータ能力を実現することによって高度なエキスパートシステムを目指す第5世代コンピュータ・プロジェクトが発足した。この動きが第2次AIブームに拍車をかけることになった。1997年にチェスの世界チャンピョンに勝利したIBMはこの流を汲むAIシステムであるが、1990年代までエキスパートシステムの実用化は限定的であった。そのためエキスパートシステムの用語もその後あまり使用されなくなった。とはいえ、2000年代の並列処理プロセッサLSIなどの進化によるコンピューティング能力向上により、エキスパートシステムは様々な分野のAIシステムに組み込まれるようになった。たとえば、2010年代にディ―プラーニングによる機械学習が普及すると、膨大なデータの中から特定の専門分野に必要な知識をディ―プラーニングによって学習して知識ベースを作成し、エキスパートシステムで問題解決するようなシステムなどである。
1979年 ネオコグニトロン型ニューラルネットワーク

ネオコグニトロンは1979年に福島邦彦によって提案された。1960年代のヒューベル(David Hunter Hubel)とヴィーゼル(Torsten Nils Wiesel)による猫の視覚野を対象とした大脳皮質の研究をヒントにした神経回路モデルである。入力された図形の特徴抽出を行なう単純型細胞に対応する層と,位置ずれを許容する働きを持つ複雑型細胞に対応する層とを交互に7層重ねたニューラルネットワークであった。このニューラルネットワークに図形を繰り返し入力し、中間層の上層に自己組織化しながら特定のパターンに反応する教師なし学習を行わせる。これを教師あり学習を行わせた最上位層と比較して図形認識を行うものであり、0~9の数字を認識した。ただこの時点ではバックプロパゲーションのようなフィルター層を学習するアルゴリズムがなく、コンピューティングパワーも不足しており、図形認識には限界があった。とはいえ、2010年代のディ―プラーニングに使用される畳み込みニューラルネットワーク(Convolutional Neural Network : CNN)の原型となるニューラルネットワークである。

第2次AIブーム(1980年代)と冬の時代(1990年代~2000年代前半)

フレーム問題が障壁となった1970年代は第1次AIの冬の時代と呼ばれるが、その間にスタンフォード大から提唱された、特定の専門領域のフレーム内の知識ベースから推論するエキスパートシステムの研究が進んだ。1972年に開発されたエキスパートシステムのエンジンの規則と事実を一階述語論理で記述するPrologもこの方向性への期待を高めた。1980年代はそのエキスパートシステムの高度化に向けた第2次AIブームとも呼ばれる。1981年に日本の第5世代コンピュータ・プロジェクトの構想を問う国際会議(FGCS'81)がこのブームを刺激するひとつの契機となった。その結果、医療・会計・金融・制御・コンピュータゲームなど、様々な専門領域向けのエキスパートシステムが提案された。しかし、エキスパートシステムは学術的知識を人間がコンピュータに記述する必要があるため、膨大な知識ベースを要する高度なシステムを目指すほど記述が困難になり、その多くは実用化に到らなかった。そのため、1980年代後半にはこのブームは次第に勢いを失ってゆき、1990年代の第2次冬の時代を迎えることになった。
第2次冬の時代と呼ばれるのは、AI理論のニューロコンピュータへの実装があまり進まなかったという側面から見た認識といえよう。しかしその一方で、サブミクロン時代に入った半導体技術の発展と相まったコンピュータ性能の向上によって、1990年代の知識ベースに活用可能なデータ量は飛躍的に増大した。同時に1990年代中頃からインターネットが普及し始め、これらの検索可能な大量のデータがネット上に行き交うようになった。すなわち、WEBが大規模な知識ベースとなる環境が立ち上がってきた。これは膨大な知識ベースをコンピュータに記述するというエキスパートシステムのハードルが次第に低くなっていったことを意味する。また1990年代中頃からの並列処理を行う半導体のマルチコアプロセッサなどの発展により、知識ベースからの推論能力も大幅に向上していった。1997年のプロのチェス棋士に勝利したDeep Blueはその一例といえる。2020年代時点でも様々な分野で知識ベース応用システムが稼働しており、第2次冬の時代はエキスパートシステムの高度化へのマイルストーンとなった期間といえよう。
同時に、WEB上の大規模知識ベースの進展は第3次AIブームディ―プラーニングへの道を拓くことになったともいえよう。そのディ―プラーニングに結実してゆくホップフィールドネットワーク、ボルツマンマシン、畳み込みニューラルネットワークバックプロパゲーションニューロモルフィック・エンジニアリングなどの諸技術がこの第2次AIブームとその冬に時代に準備されていたことも見逃せない。
1982年 第5世代コンピュータ・プロジェクト

第5世代コンピュータ・プロジェクトは通商産業省(現経済産業省)が1982年に発足させた国家プロジェクトである。570億円を投じ、1992年に終了した。
このプロジェクトの計画は、1979年から3年間、日本情報処理開発協会(JIPDEC)内に設置された第5世代コンピュータ調査研究委員会を中心に立案された。当時のコンピュータは3.5世代と呼ばれていたが、国際的に先進技術を目指す政策の下で、次の第4世代を飛び越えて1990年代の第5世代のコンピュータが目標とされた。強力なコンピューティングシステムによってエキスパートシステムを実現しようとする目論見である。人工知能用言語の主流とされていたLISPではなく、述語論理による推論を行うPrologを採用し、1000台規模の並列推論マシンとそのオペレーティングシステムを構築する挑戦的な計画であった。この大規模な並列処理のハードウェアはVLSI技術の進展により可能になるとの認識から設定された目標であり、そのためのVLSI自動設計技術も開発テーマとなった。これらの構想は1981年に海外の有識者を招いて東京で開かれた第5世代コンピュータシステム国際会議(FGCS’81)で発表され、米欧の人工知能分野の研究開発に大きな影響を及ぼした。
1982年に(財)新世代コンピュータ技術開発機構(Institute for New Computer Technology; ICOT)が設立され、11年にわたるプロジェクトがスタートした。その結果、512台の並列推論マシン、並列推論型のプログラミング言語システムとOS、並列定理証明や知識表現言語などの知識プログラミングシステムのプロトタイプシステムが開発され、遺伝子情報処理・VLSI設計支援・法的推論などの機能実証が行われた。
これらの成果が日本のコンピュータ・AI産業で実を結ぶことはなかったので本プロジェクトを失敗とする見方も多いが、その後のAI技術へのアプローチを探るひとつの壮大なトライアルを行った意義は大であったともいえる。
1986年 バックプロパゲーション(誤差逆伝搬法)

バックプロパゲーション(誤差逆伝搬法)は、ニューラルネットワークの入力情報からの出力の誤差(誤回答する確率)から中間層の結合強度(重み)を調整して正解を出力する確率を高める学習アルゴリズムである。
1958年に提案されたパーセプトロンでは非線形問題が解けないことが明らかにされた(1968年のフレーム問題)。しかし、多層パーセプトロンの結合強度を学習できれば非線形問題は解けると考えられ、この難点を解決する提案は幾度もなされたきた。1960年のB, Widrow等による確率的勾配降下法はその初期の試みである。日本でも1967年に甘利俊一による隠れ層のあるニューラルネットワークでの確率的勾配降下法が提案されたが、当時のコンピュータ能力では本法の実証はできずにいた。バックプロパゲーションはこれらの提案の再発見ともいえる。
1986年にラメルハート(David E. Rumelhart)、ヒントン(Geoffrey E. Hinton)、ウィリアムス(Ronald J. Williams)によって提案されたバックプロパゲーションは、正負の実数値を0以上1以下の実数地に変換するシグモイド関数を用いて3層パーセプトロンの結合強度を学習する際に、正解値からの出力誤差を逆方向に返して各ニューロンの誤りを正すアルゴリズムである。この提案によって非線形問題を解く可能性が高まり、フレーム問題によって下火になっていたニューラルネットワークによる機械学習のアプローチが再び盛り上がることになった。
しかし、複雑な機械学習にはニューラルネットワークの層数を増やす(深くする)ことが必要であるが、層数を増やすと勾配損失や過学習の問題が生じ、結果的にはこの方法は実用化されなかった。だが2006年に提案されたオートエンコーダによってこれらの問題が解決され、バックプロパゲーションは結合強度の学習の要素アルゴリズムとなった。そして高度のコンピューティング能力を必要とするこのアルゴリズムは、2000年代のGPU(Graphics Processing Unit)やマルチコアプロセッサの半導体技術の進展によって現実的な実装が可能になり、ディ―プラーニングの普及につながった。
1989年 ニューロモルフィック・エンジニアリング

ニューロモルフィック・エンジニアリングは、第1次AIブームから研究されてきたニューラルネットワークよりも抽象度を下げて、実物の脳に近い神経科学モデルを半導体集積回路で忠実に実行させようとする工学である。1989年にカルフォルニア工科大学のミード(C. Mead)等によって、生物の視覚や聴覚の機能を模倣するアナログ集積回路システムの構築から始められた。
この提案は、第1次AIブームにおいてパーセプトロンの提案によって始まったニューラルネットワーク研究がフレーム問題に突き当たって長い冬の時代が続いていた時代に、より先進的な脳神経科学研究のモデルを半導体集積回路に実装しようとするものであった。ニューラルネットワークの難点を乗り越える新たなアプローチとして様々な脳機能の実現が試みられた。2008年にはDARPA(Defense Advanced Research Projects Agency、アメリカ国防高等研究計画局)とIBMなどによるSyNAPSプロジェクトがスタートし、ニューロモルフィック・エンジニアリングは脳のシミュレータやエミュレータの研究も盛んになった。2014年のIBMによるニューロチップ(TrueNorth)はこのプロジェクトの延長線上での発表である。
2010年代に入ってディ―プラーニングによる第3次AIブームが起こり、ニューラルネットワーク方式は復活したが、機械学習の更なる発展には消費電力の増大やノイマン・ボトルネックなど多くの課題が待ち受けており、非ノイマン型のニューロモルフィック・エンジニアリングは将来候補技術として注目される。
1997年 チェス専用コンピュータ「Deep Blue」

ディープ・ブルー(Deep Blue)は、IBMが開発したチェス専用のスーパーコンピュータである。大学の研究室で生まれたチェス専用スーパーコンピュータ「ディープ・ソート」の研究を引き継ぐ形で、IBMが1989年より開発を開始したもので、ディープ・ソートを破った当時チェスの世界チャンピオンだった、ガルリ・カスパロフを打ち負かすことを目標とした。
過去に2回の対戦が行われ、1回目(1996年2月)はカスパロフが3勝1敗2引き分けで勝利、2回目(1997年5月)には使命を果たす形で6戦中2勝1敗3引き分けとなりディープ・ブルーが勝利した。(ディープ・ブルー対ガルリ・カスパロフを参照)
Deep Blueは、RISCベースの32ノード高性能コンピュータで、IBM POWER2 Super Chipプロセッサを使用している。IMB POWER2 Super Chipプロセッサは、0.25μm 5層 メタル CMOSプロセスで、335 mm2 のチップ上に、1500万トランジスタを集積し、クロック160MHzで動作した。Deep Blueでは、合計256個のプロセッサを連動させた。
その後、更なるアルゴリズムの改良およびパーソナルコンピュータの計算能力の向上により、一般消費者向けのチェス対局ソフトが人間のトッププレーヤーに匹敵するようになった。
1998年 畳み込みニューラルネットワーク

畳み込みニューラルネットワーク (Convolutional Neural Networks; CNN)は,画像や音声の認識に利用されるニューラルネットワークの一種である。畳み込みニューラルネットワークの原型は,1978年に生物の脳の視覚野に関する大脳皮質の研究をヒントに福島邦彦によって提案されたネオコグニトロンに見られるが、畳み込みフィルターの学習機能を欠いたためパターン認識に限界があった。
1998年、AT&T Bell研究所のY. Lecun等が、バックプロパゲーションを用いて学習する畳み込みニューラルネットワーク、LeNetを開発した。このLeNetは手書き数字を99.3%の高精度で判別し、小切手の自動判別機にも用いられた初の産業用畳み込みニューラルネットワークシステムとなった。
その後の10年余りは畳み込みニューラルネットワークシステムは数字認識に限定されていたが、2012年にディ―プラーニングの普及につながるAlexNetへと発展し、自然言語解析や様々な強化学習など、様々な分野で使われるようになった。

第3次AIブーム(2000年代後半~)

AI開発にとっての重要なステップは、1950年にチューリングがチューリング・テストで指摘したように、機械が自ら学習することであったといえよう。機械学習の歴史はそれほどに長い。1958年に提案されたパーセプトロンはこれを実現する方法として期待され、1960年代に第1次AIブームが起きた。だが1968年に提示されたフレーム問題によってこのアプローチが線形問題だけに限定されることが分かり、1980年代から人間がコンピュータに必要な知識と推論のルールを与えるエキスパートシステムへと舵が切り替えられた。とはいえ、この初期の機械学習への道筋は地道に追究され続け、パーセプトロンの発展形としての非線形問題を扱う多層ニューラルネットワークの改良が進められてきた。パーセプトロンでは解けなかった非線形問題に対する取り組みがその中心的課題であり、本展示で取り上げたネオコグニトロン(1979)、ホップフィールドネットワーク(1982)、ボルツマンマシン(1985)、畳み込みニューラルネットワーク(1985)、バックプロパゲーション(1986)やニューロモルフィック・エンジニアリング(1989)などがその例である。それらの努力が結実し始めたのが2000年代後半からである。いわゆるディ―プラーニング(深層学習)であり、第3次AIブームが起こった。
このブームの契機となったのは、2006年に発表されたオートエンコーダである。この発表後から、ディ―プラーニングの用語が使われるようになった。さらに2012年、Googleが1000万枚の画像から猫を識別するAIを発表し(「Googleの猫」と呼ばれる)、また同年にトロント大学のディ―プラーニングが大規模な画像データの中にある物体の認識能力を競う大会(ILSVRC: ImageNet Large Scale Visual Recognition Challenge)で2位以下に大差をつけて優勝したことからこのブームに火が付いた。多くの研究者や機関がディ―プラーニングの開発に乗り出し、ディ―プラーニングの認識能力は急速に高まっていった。2016年のGoogleによるAlphaGoがトップクラスの棋士に勝利したこともディ―プラーニングの可能性を世界に示すことになった。
このディ―プラーニングは2012年ごろから普及し始め、急速に学習精度が向上していった。さらに学習精度の向上と相まって、学習結果を再生成する生成AIの開発も進んだ。VAE(Variational Autoencoder;変分オートエンコーダ)、GAN (Generative Adversarial Nets;敵対的生成ネットワーク)、Transformer等の提案はその代表例である。2022年には画像生成AIのDalle2などや対話型AIのChatGPT-3などが一挙に普及しはじめた。
なお、ディ―プラーニングがブームになったのは、半導体技術の進展と相まったコンピュータの性能向上が進んだことが背景にあることを特筆しておきたい。これによって、ひとつには1990年代中頃からインターネットが普及しはじめ、機械学習に必要な大規模なデータがWEB上に集積されるようになったことが挙げられる。HDD(Hard Disk Drive)に続くNANDメモリの高集積化はこのビッグデータ化の必須条件でもあった。また、ディ―プラーニングの実装は強力なコンピューティング能力が不可欠でもあった。それはGoogleの猫が16,000個のコアプロセッサで3日間かけて学習したことからもよく解る。並列計算するマルチコアプロセッサ、FPGA(Field Programmable Gate Array)、さらにはGPU(Graphics Processing Unit)などの半導体技術の進展がディ―プラーニング・システムの実装に不可欠であったといえる。2014年のIBMによるTrueNorthのようなニューロチップの開発も活発化した。
2000年代 大規模並列処理プロセッサ技術の発展

ニューラルネットワークによる学習アルゴリズムの研究は1943年の形式ニューロンの提案から、何度もの山谷を越えながら続けられてきた。様々なアルゴリズムの提案においてもその実用化の壁になっていたのはコンピューティング能力の不足であった。1990年代以降は、半導体技術の進展による処理速度の向上と、高集積化がもたらした多量の演算の並列処理技術によって、新たな発展の時代の幕が開いた。
並列処理プロセッサは、特定の機能を高速処理する専用プロセッサから始まった。中央処理ユニット(CPU: Central Processing Unit)と組み合わせてCPUの能力不足を補うもので、コプロセッサとも呼ばれた。専用プロセッサにはいろいろな機能のものがあるが、代表的なものはグラフィックス処理ユニット(GPU: Graphics Processing Unit)である。1980年代に現れたGPUは、画面に表示する2次元の画像を生成(ラスタライズ)するための機能を内蔵した。1990年代に入って、3次元グラフィックス処理に必要な大規模行列演算を支援するため、多数の浮動小数点演算器がGPUに内蔵されるようになった。
2000年代に入ると、大規模な演算を並列処理できるGPUを、グラフィックス処理に限らず他の処理にも活用しようという動きが出てきた。GPUを用いて汎用演算を行うのでGPGPU(General-Purpose computing on Graphics Processing Units)と呼ばれた技術である。2007年にNVIDIAがGPGPU用のプログラミング環境としてCUDA(Compute Unified Device Architecture)を発表したことから、ニューラルネットワークの計算においても容易にGPUを用いることができるようになった。
一方で、2000年代には複数のCPUを搭載するマルチコア化が進んだ。インテルCPUの流れでは、2005年に、ワンチップに2個のCPU(デュアルコア)を内蔵したペンティアムDが発表された。その後は、4個~数十個のコアを内蔵するマルチコアプロセッサへと発展、さらに数十個から数千個にも及ぶコアを内蔵するメニーコアへと発展した。複数のタスクを多くのコアに分散処理することで、AIの処理を劇的に高速化できるようになった。
2010年代には、メニーコアやGPUの活用に加えて、AI専用のプロセッサを開発する動きが出てきた。2014年、IBMはTrueNorthと名付けたニューロモルフィック(脳型)半導体チップを発表した。2016年、Googleはディ―プラーニング処理に必要なテンソル演算の高速化を狙ったプロセッサTPU(Tensor Processing Unit)を発表した。TPUは、通常のGPUで用いられる32ビットの浮動小数点数値表現とは異なり、ビット長の少ない数値表現を用いている。ニューラルネットの演算では必ずしも細かな精度は必要ないので、データのビット長を短縮することでメモリと演算器を小さくでき演算速度も速められる。限られたダイサイズの中で、より多くのデータを高速処理することを狙ったものである。このほかにも、それぞれ固有の特徴を有する多数のAI専用プロセッサが開発されている。
2006年 オートエンコーダとディープラーニング

オートエンコーダ(自己符号化器)は、ニューラルネットワークに入力されたデータを圧縮(エンコード)し、重要な特徴量のみの小さな次元に落とし込んで復元処理(デコード)するアルゴリズムである。2006年、トロント大のJ. Hinton等によって提案された。
ニューラルネットワークの歴史は1943年の形式ニューロンの提案から始まるが、長らくフレーム問題などの難題が立ちはだかっていた。1986年に入力層と出力層の間の中間層を重ねた多層パーセプトロンにおけるバックプロパゲーションが開発され、非線形問題を解く可能性が開かれた。これによって、中間の層数を増やすことでより複雑な処理が可能になると期待された。しかし予測と正解の誤差を利用して学習してゆくバックプロパゲーションでは層数を増やしすぎると逆に精度が落ちる(勾配消失)問題や、学習によって訓練データに適合しすぎると汎用性が失われる(過学習)問題などが明らかになって第2次AIブームが下火になった。
オートエンコーダはこれらの勾配消失問題や過学習問題を解決する提案であり、これが契機となって第3次AIブームが始まった。同時に(2006年頃から)、このニューラルネットワークを用いる一連の学習法がディ―プラーニングと呼ばれるようになり、2010年代のディ―プラーニングの普及へとつながっていった。
2010年代 機械学習普及の背景と基盤技術

2010年代にディ―プラーニング等による機械学習が普及しはじめた。機械学習とは、人間社会に関わる様々な経験のデータから、コンピュータが何らかの事象の特徴量を自動的に学習し抽出することである。その学習アルゴリズムを開発してコンピュータに実装することが本展示で扱うAI技術であるが、高速で高精度の学習を行うためには多岐の事象にわたる膨大なデータを集積し、その膨大なデータを高速で取り扱える環境が不可欠である。そのような環境が整い始めたのが2010年代前後である。本格的なビッグデータ時代の到来である(ビッグデータの用語は1990年代から使われていた)。
ビッグデータ化に到る歴史は多様で古い。たとえば、1969年にIBMによって、特定の事象に関係するデータを集積したリレーショナルデータベースを用いてコンピュータ解析する手法が提案された。その後、1990年代にはコンピュータの記憶容量と処理速度の向上によって、大量のデータから知識を取り出すデータマイニングという技術が進展してきた。さらに1990年代中頃からはインターネットが普及し始め、多様なデータがインターネット上に急速に蓄積されるようになった。これらのデータの内、情報の利用者が重視するデータをハードウェアに蓄積して管理するデータセンターも1990年代後半から登場した。これらのインターネット上に蓄積された資源を商業的なサービスに活用しようとするのがクラウドコンピューティングであり、2006年にGoogleから提案された。この間に、蓄積されるデータの量はムーアの法則に従った半導体技術の進展によって幾何級数的に増大した。ビッグデータの時代はこのデータ量が1000エクサバイト(エクサは10の18乗)に到達した2010年辺りからとされる。こうして機械学習に必要な大量のデータ環境が整えられていった。
2010年代にはモノの情報がインターネットにつながるIoTの時代に入り、データ量の増加はさらに加速した。この多種多様で莫大なデータは人間の脳で分析できる範囲を遥かに超えているので、一方ではビッグデータの時代が機械学習の高度化を要請してきたともいえる。AIがさらなるビッグデータを必要とし、ビッグデータ化がAIのさらなる高度化を必要とする時代に入り、この相乗的な作用を実装する半導体技術の重要性がますます高まったのが2010年代である。
2012年 ニューラルネットワークによるディ―プラーニングの普及

2012年9月、1000万枚の画像の中にある物体の認識精度を競う大会であるILSVRC(ImageNet Large Scale Visual Recognition Challenge)において、トロント大(A. Krizhevsky, I. Sutskvever, J. Hinton)のSuperVisionと呼ばれるディ―プラーニング(Deep Learning)が認識率で2位(東京大学)以下を圧倒的に引き離して優勝した。これを契機にAI技術者たちのディ―プラーニングへの関心が集まり、急速に発展していった。これに先立つ2011年にはMicrosoftが言語認識にニューラルネットワークを用い、さらにGoogleがYouTubeからランダムに取り出した1000万枚の画像から猫を認識したと発表した(「Googleの猫」と呼ばれた)こともディ―プラーニングが注目されるようになった大きな要因であった。2016年にはGoogleによるAlphaGoが登場し、ディ―プラーニングの高い能力が広く知られるようになった。2022年にはDALLE2やStable Diffusion等の画像生成、対話型のChatGTP-3等が相次いでリリースされ、誰もが利用できる生成AIへと驚異的な発展を遂げる契機となった。
ニューラルネットワークの歴史は長い。1943年のマカロック(W. S. Moculloch)とピッツ(W. Pitts)による形式ニューロンの提案に始まり、1956年のダートマス会議ではニューラルネットワークがAIの実現の有力候補として議論された。1958年にはローゼンブラット(F. Rosenblatt)によって視覚と脳の機能をモデル化した2層の形式ニューロンからなるパーセプトロン(Perceptron)が提案され、パターン認識の研究が加速した。しかし、1968年にマッカーシー(J. McCarthy)からフレーム問題(単純パーセプトロンでは線形分離可能な問題しか扱えないこと)が示され、ニューラルネットワークの研究は冷え込んだ。
それでも一部の研究者による地道な研究は続けられ、2012年のトロント大のディープラーニングにつながる技術が提案されてきた。1979年には畳み込みニューラルネットワーク(CNN : Convolutional Neural Network)へ発展するネオコグニトロンが福島邦彦から発表された。そのCNNはルカン(Y. LeCun)(1989年)によって文字認識に適用された。またこれに並行して、線形分離不可能問題(フレーム問題)を扱う中間層を持つ多層ニューラルネットワークへの研究が進み、1985年にはヒントン(G. E. Hinton)とセジュノスキー(T. Sejnowski)によってニューラルネットワークに情報を記憶させるホップフィールドネットワークで中間層の層数を減らすボルツマンマシンが提案され、1986年にはラメルハート(D. Rumelhart)とヒントン(G. E. Hinton)によって出力層の推論値との誤差から各ニューロンの重みを調整して学習する誤差逆伝搬(backpropagation)のアルゴリズムなどが提案された。そして2006年には、これらの技術に加えて教師なし学習を行うためのオートエンコーダのアルゴリズムがヒントン(G. E. Hinton)とサラフトディノフ(R. Salakhutdinov)によって提案された。2012年のトロント大のSuperVisionはこれら諸提案の集大成ともいえる。
こうしたディ―プラーニングが実現されたのは、これらの複雑なアルゴリズムを実装可能になるほどに半導体技術が発展したからでもある。学習には膨大なデータが必要であるが、並列プロセッサやNANDメモリの高集積化によりビッグデータを処理できる環境が整ってきたのがその一例である。さらに誤差逆伝搬などのアルゴリズムを実行するには大量かつ高速のコンピューティング能力が必要とされるが、マルチコアプロセッサの発展に続くGPU(Graphic Processing Unit)の高性能化が大きく寄与した。
2014年 TrueNorth(IBM)

2014年、IBMがTrueNorthと名付けられたニューロモルフィック(脳型)半導体チップを発表した。28nmプロセスノードで作られた54億個のトランジスタによって構成された100万個のニューロンと2億5600万個のシナプスからなる。ディ―プラーニングのAI処理に使われる数百ワットのGPU(Graphics Processing Unit)や数十ワットのTPU(Tensor Processing Unit)よりはるかに低い70ミリワットの低電力で動作させるものである。最小のデータ処理を行う演算装置と記憶装置をひとつのコアに収め、このコアとコア間の通信ルータの4096個を1チップに搭載して、フォイマンボトルネックを解消する方式で低電力化した。人間の右脳の役割を担い、左脳の役割を担うノイマン型コンピューティングと連動させる試みといえる。
2016年、このチップ16個からなるTrueNorthシステムが、米国の国家安全保障の諸課題に関するソルーションを提供するローレンス・リバモア研究所に納入された。ディ―プラーニングとは異なるコグニティヴAIへのひとつのマイルストーンといえる。
2010年代後半 生成AIの進展

2012年ごろから普及し始めたディ―プラーニングは音声や画像、文章などの対象の特徴を学習する方法であるが、対象を学習した結果からその対象を再生成してそれが何であるかを認識する機能をも有している。それ故にその後のディ―プラーニングは急速に学習精度の向上が図られていったが、それは同時に認識とその認識の再生成精度の向上を図ることでもあった。このディ―プラーニングにおける学習精度を高めながら学習した認識の再生成に力点を置いたのが生成AIと呼ばれ、2010年代前半からに様々な提案がなされてきた。2013年のアムステルダム大のキンフマ(D. P. Kingma)等によるVAE(Variational Autoencoder;変分オートエンコーダ)、2014年のモントリオール大のグッドフェロー(I. J. Goodfellow)等によるGAN (Generative Adversarial Nets;敵対的生成ネットワーク)、2017年のGoogleによるTransformerモデルなどはその代表例である。
VAEは、EMアルゴリズムや変分ベイズを用いて、ひとつのニューラルネットワークによって対象を学習して最もよくフィットする既存の確率分布を選択し、もうひとつのニューラルネットワークで選択した確率分布の形状を決定するパラメータを推定することで学習精度を高める方法であり、高精度で推定した結果を生成AIとして出力できる。またGANは、二つのニューラルネットワークの一方を生成ネットとし、他方を識別ネットとして、生成ネットが生成したモデルが識別ネットのモデルと区別できなくなるまで競わせて生成モデルの学習精度を上げる方法である。Transformerは正確な翻訳を目指した新しいモデルであり、アテンション層を設けるだけで限られたコンピューティングパワーで高速で学習可能にしたものである。その後GoogleによるBERT(Bidirectional Encoder Representations from Transformers)やOpen AIによるGPT(Generative Pretrained Transformer)などの大規模言語モデルが提案された。2010年代後半にはこれらをベースにして生成系のディ―プラーニングが急速に改良、進化していった。
これら生成系のディ―プラーニングの急速な進化から、2022年に生成AIが一挙に普及し始めた。2022年4月にGPT-3を用いた自然言語による指示で絵画やイラストなどの画像を生成するDALLE2が発表された。さらにMidjourney(2022年7月)やStable Diffusion(2022年8月)などが相次いで登場し、画像生成AIが人気を博した。2022年11月30日、Open AIから生成AIの一種である対話型AIのChatGPT-3が無料公開され、その後の2ヶ月間でユーザー数が1億人を突破するほどの驚異的なスピードで拡大した。生成系AIは1956年のダートマス会議で挙げられた目標課題であり、以来様々な提案がなされてきた。2022年は60余年にわたるこのAI開発の結果として、誰もがインターネット上で生成AIを利用できるようになったことで画期をなす年となった。

 

[ページトップに戻る]

 


[最終変更バージョン] Ver.001 2023/8/1