人工知能
- ケモインフォマティクス
- マテリアルズ・インフォマティクス
- プロセス・インフォマティクス
人工知能(AI)とケモインフォマティクス
人工知能は、近年のGhatGPTなどの大規模言語モデルに代表される、データからパターンや知識を抽出し学習や推論を行う技術一般を指します。これを化学領域へ展開した技術(学問)が、ケモインフォマティクスで、特に材料分野に用いるものをマテリアルズ・インフォマティクス、プロセス化学へ用いるものをプロセス・インフォマティクスと呼んでいます。ケモインフォマティクスは、化学に関する様々な情報を学習して知識化したモデルを使い様々な化学の問題を解決する、現代の化学研究においてなくてはならない技術の一つとなっています。
ケモインフォマティクスとは?
「ケモインフォマティクス(情報化学)」は、“chemistry”と “informatics”を組み合わせた言葉で、1998年にF・K・ブラウンによって提唱されました。機械学習(AI)を化学分野に応用して研究開発を加速させることを目的とした研究分野であり、例えば、以下の分野などで活用されています。
- 機能性分子の分子設計
- 合成経路の創出
- 化合物物性や相互作用の予測(構造活性相関)
- 化学構造や反応の分類
- タンパク質の機能予測
- 実験数の低減(実験計画法)
ケモインフォマティクスで用いられる代表的手法
多変量解析(回帰分析)
多変量解析とは、実験的・計算化学的に得られた多変量データからモデル式を構築して何らかの数値を予測する手法です。 例えば、あるコンビニの日毎の最高気温をxアイスの売上をyとしてプロットした場合、線形性が現れることが予想されます。ここで、2つのパラメータwとbによって特徴づけられる直線の方程式 をモデルもしくは数理モデルと呼び、wは回帰係数(重み)、bはバイアスと呼ばれます。 このように数理モデルを構築することで、1つの説明変数xから1つの目的変数yを予測することを単回帰分析と呼びます。
複数の説明変数を扱う場合も上記手法を応用して数理モデルを構築することができ、これを重回帰分析と呼びます。 重回帰分析において、例えば2つの説明変数x1とx2が互いに強い相関を持つような場合は多重共線性が生じてしまい、回帰係数の精度が悪くなります。これを予防するための代表的な手法として、データをじかに使わずに主成分を計算(主成分分析:PCA)し、その主成分への回帰を行う部分的最小二乗法(Partial Least Squares:PLS)があります。
分類(classification)
回帰分析は数値を予測することが目的でしたが、分類はデータがどのグループに属するかを可視化する手法です。代表的な手法としては、ルールに従って学習データを並べ、近い属性を持つデータを同じグループとして判断するk近傍法、マージン最大化の考え方を用いてクラスを2つに分類するサポートベクターマシン(SVM)、木構造を用いて条件分岐で分類させていく決定木、複数の決定木を用いた各推定結果を多数決するランダムフォレストなどがあります。
ニューラルネットワーク
ニューラルネットワークとは人間の脳にあるニューロンの働きを模した数理モデルで、入力層と出力層の間に中間層を挟み、より複雑な決定境界を求める手法です。分類と回帰のどちらも行うことができます。また、中間層を多層化したものがディープラーニングです。