このページを印刷
マテリアルズインフォマティクス
人工知能のための計算化学データセット構築サービス
 マテリアルズ・インフォマティクスは、人工知能を用いて素材の構造や物性と化学的性質を結びつけることにより、材料開発や機能性分子の開発を行う手法です。当社では、素材を構成する各要素分子に対し、構造記述子量子化学計算による電子的物性の算出を実施し、人工知能モデル開発のための学習データセット構築を行っております。効率的な材料・機能性分子の開発に向けて、ぜひ、ご活用下さい。

構造記述子: 0D,1D,2D,3D-descriptors, フィンガープリント、分子量、部分電荷、芳香族性、…
量子化学計算結果: エネルギー、エントロピー、振動数、励起波長、HOMO/LUMO、電荷、双極子/ 多極子、NMR シフト値、…
回帰分析・機械学習解析サービス
 QSAR(構造活性相関)/QSPR(構造物性相関) をはじめとする、マテリアルズ・インフォマティクスによる開発を実現するためには、適切な回帰分析・機械学習のモデルを構築することが重要です。特に、実験より得られるサンプル数が限られる化学研究の場合、少ないデータより信頼性の高いモデルを構築することが求められます。当社では、データのクレンジング学習データの追加作成ハイパーパラメータの最適化等を一貫して行い、機械学習を含む最適な回帰分析モデルの選択により、予測精度の高いモデル構築を実施しております。ぜひ一度、お問い合わせ下さい。

重回帰分析、主成分分析、PLS 解析、QPLS 解析、SOM(自己組織化マップ)、ニューラルネットワーク、SVM、ランダムフォレスト、深層学習(CNN, GCNN)、…

計算化学
 計算化学は、コンピュータシミュレーションにより、化学における諸問題の解決を行う手法です。量子化学計算では、分子における電子の振る舞いを計算することにより、精密な電子的物性算出や反応解析などを実現します。分子動力学計算では、分子集合体としてのバルクな物性や熱的挙動を計算することが可能です。当社では、この2つの手法により高い信頼性を有する学習データの作成を可能としています。



深層学習
 深層学習(ディープラーニング) は、複数のニューラルネットワークを階層的に組み合わせたモデルを用いて機械学習させることで、より複雑な情報の認識や分類を行うことを目的としたものです。当社では、深層学習のモデルとして畳み込みニューラルネットワーク(CNN) を利用し、数百以上の化学構造記述子と分子機能を結びつけることで、材料や機能性分子の開発を行っています。



深層学習(GCNN)による色素系増感剤のモデル化と性能予測
 GCNN(Graph Convolutional Network)は、グラフ構造を入力データとしてCNNによる深層学習を行う手法です。入力されたグラフ上で近いノードに対する畳み込み演算を行うことで、グラフ構造の取り扱いが可能となります。分子構造は、原子の結合グラフとして特徴表現できるため、GCNNを用いることで、分子構造を考慮した形での学習が可能となります。これまでに、B3LYP/6-31GレベルのDFT計算により得られるHOMO/LUMOのエネルギー値や毒性などがGCNNにより予測できることが報告されています。
 本研究では、高い変換効率を有する新規色素分子の創成を目的として、深層学習により、分子構造や構造記述子より増感性を予測できるモデルの構築を試みました。今回はデータセットとして、増感性(η[%])の実測値を有するポルフィリン系色素46物質を用いました。



 まず、深層学習を行う前に、分子の構造的な特徴と増感性の関係を調べるため、価電子数や電子密度に関する構造記述子29種を計算し、これらを説明変数とし、目的変数ηに対するPLS解析を実施しました。この結果、累積R2値は0.666と、線形相関を得ることはできなかったものの、使用した29種類の構造記述子と増感性との間には関係性があることが確認できました。


PLS解析結果(Y-Yプロット)

 同様の構造記述子を用いて、決定木を用いた機械学習方法の1つである、ランダムフォレストによりクラス分類及び回帰を行ったところ、R2=0.969と、非常に高い相関モデルを得ることができた。また、このモデルにおけるOOB(Out-of-Bag)の二乗平均平方根誤差(RMSE)は、η= 1.75 [%]であり、十分信頼できるモデルが構築できたと考えられます。従って、今回のデータセットについては、増感性が2次元構造より十分予測可能であることが確認できました。


ランダムフォレスト(Y-Yプロット)

 GCNNによる深層学習では、原子間の繋がりをグラフとして入力することで、分子構造を反映した畳み込み演算が可能です。今回、46物質よりランダムに選んだ3割を検証用データ、残りを教師用データとして、NFP(Neural Fingerprint)モデルを用いて4層の畳み込みにより、学習回数100までの学習を実施しました。その結果、学習を重ねるにつれ予測精度の向上が見られ、100回目の学習において、R2=0.762のモデルを構築することができました。このときのRMSEはη=1.73 [%]となりました。


深層学習によるη予測精度

 教師データの増強により、より幅広い骨格構造のデータを与えることでさらなる予測精度の向上が可能であると考えられます。