banner
ニュース センター
私たちの目標は、お客様のニーズに応えるために技術と品質を継続的に向上させることです。

コリン作動性配列タイプメタに基づく化学兵器の予測

Jun 11, 2023

Scientific Reports volume 12、記事番号: 16709 (2022) この記事を引用

1466 アクセス

メトリクスの詳細

化学物質の安全性に関する分子の洞察は、リスク評価だけでなく持続可能な開発にとっても非常に重要です。 この研究では、将来的に発生する有害物質、特に潜在的にコリン作動性化学兵器(CWA)を管理する方法を検討します。 この目的のために、既知のコリン作動薬の構造が分子記述子によってコード化されました。 そして、各薬物標的相互作用 (DTI) をコード化された構造とそのコリン作動性活性から学習し、信頼性の高い統計的検証を備えた 5 つのコリン作動性標的の DTI 分類モデルを構築しました (アンサンブル AUC: 最大 0.790、MCC: 最大 0.991、精度: 最大) 0.995まで)。 収集された分類子は、(1) コリン作動性予測と (2) CWA 検出というマルチタスク用の 2D または 3D 配列タイプのメタ予測子に変換されました。 アレイ分類器の検出能力は、CWA と CWA なしの間の不均衡なデータセットの下で検証されました (適合率-再現率曲線の下の領域: 最大 0.997、MCC: 最大 0.638、CWA なしの F1 スコア: 最大 0.991、F1- CWA のスコア: 最大 0.585)。

化学兵器 (CWA) および有害化学物質は、化学物質の安全性を脅かしています1,2。 化学兵器禁止条約が制定される前は、CWA は軍事作戦のために意図的に発明され、合成されていました。 現在、(1) 既知の CWA (有機リン誘導体など) 2、3 に関連する合成化学、または (2) 治療薬用の化学 (NATO によって割り当てられた BZ など) を通じて、意図しない CWA の発明とその予期せぬ事故が懸念されています。および違法薬物4. 1994 年の日本でのサリン、2017 年のマレーシアでの VX、2018 年のシリアでのノビチョク(非申告エージェント)などの連続テロにより、化学兵器に関する懸念は現実的なものとなっています5。 さらに、一部の有害な化学物質(図 1 に示す)は、CWA の化学兵器禁止組織リスト(OPCW)に登録されていませんでしたが、壊滅的な被害をもたらし、その悲劇は今も続いています。グアニジニウム (PGH)/ポリヘキサメチレン グアニジン (PHMG)、レキットベンキーザー滅菌器の成分で、韓国で乳児と妊婦の消毒による死亡を引き起こした6、7、および (2) エージェント オレンジ (除草剤および枯葉剤化学物質) の微量不純物 TCDD )ベトナム戦争中、病気のエピジェネティックな世代間遺伝が促進されました8、9。

化学的脅威には、NATO コードが割り当てられた化学戦争剤 (CWA)、CWA 興奮剤、新規精神活性物質 (NPS)、PHMG (滅菌剤) や TCDD などの化学危険物質が含まれます。

化学物質の安全性を確保するために、人間は有害な化学物質から生じるリスクを制御するための規制やシステムを構築してきました10、11、12。 このようなシステムを使用して、有害物質の検出またはその解毒技術が継続的に開発されています13、14、15、16。 このような歴史にもかかわらず、今後の有害物質の出現率は、規制や検出技術の確立よりも速いです。 例えば、違法薬物の規制や標準薬物検査での検出を回避できる可能性がある既知の違法薬物の薬理効果を模倣するように設計された 450 以上の新しい精神活性物質 (NPS) またはデザイナードラッグが、2014 年から 2014 年まで監視されてきました。 201717,18,19。 この期間中、いかなる安全システムも NPS を適切かつタイムリーに制御することはできませんでした。つまり、NPS の特定と検出、毒性の評価、規制の確立です20。 当然のことながら、システム内で定義されていない化学的危険や有毒物質を防止、認識、制御することはできません21。 したがって、有害で危険な「まだ存在しないが今後登場する化学物質(NE 化学物質)」は、リスク評価のために事前に定義される必要があります。 しかし、「存在しない」という予測は曖昧で不確定です。 幸いなことに、機械が既知の有害な化学物質の構造と特性を学習し、それらの関係を分析すると、学習された関係は理論的には NE 化学物質のパターンを示唆できます 22。 つまり、既知の化学物質の分子的特徴(変数)を利用して、危険空間と有毒空間の一部を定義することができます(図2)。 「化学空間」とは、考えられるすべての小分子23を包含する意味であり、危険有害性空間とは、考えられるすべての危険および有毒化学物質を包含する意味であり、命名された。 より望ましくは、この定義が理想的に達成されれば、予防的規制に使用できるようになります。 このことを考慮して、我々はコリン作動性メタ予測因子を使用して危険空間と有毒空間の一部を定義することを試みました。 この研究では、汎コリン作動性薬剤の空間がそれらの分子構造によってアプリオリに定義され、空間内の CWA としての神経ガスのコリン作動性パターンが畳み込みニューラル ネットワーク (CNN) によって学習されます。 前者はコリン作動性メタ予測因子の生成であり、後者はメタ予測因子に基づく CWA 検出です。

危険および有毒な空間の概念的な表現と、空間内の化学物質の分子特徴付け。

予測モデルの場合、予測子変数と従属変数は通常、生データの変数から選択されます (または操作後に選択されます)。 しかし、CWA と既知のコリン作動薬との間に共通の情報はなく、毒性指数が入手できることはほとんどありませんでした 1,2,16,24。 コリン作動薬に関する利用可能なデータは、その構造とコリン作動活性でした(図3および表S1)。 一方、CWA と有害物質に関する唯一の一般的な既知の情報は、分子構造でした。 予想通り、CWA とコリン作動性データの間のリンクによって共通変数は生成されませんでした。 したがって、限られたデータから化学物質の統一的な記述子(予測変数)をどのように作成するかが現実的な問題でした。 統一された記述子を定義するには、有害物質と有毒物質の重要な特性は、毒性からの救済につながる分子力学と合わせた毒性プロファイルです。 特に、ほとんどの薬剤について、それぞれの毒性の詳細なメカニズムは不明であり、それぞれ異なります。 CWA では、一部の神経ガスは高い構造的同種性を示しますが、3-キヌクリジニルベンジレート (NATO コード: BZ) の構造は他の CWA の構造と非常に類似しておらず、CWA の化学構造の異常値です。 幸いなことに、神経ガスは、水疱剤、窒息剤、窒息(肺損傷)剤、無力化剤、流涙剤、嘔吐剤などの他の CWA よりも、アセチルコリンエステラーゼ (AChE) に基づいた比較的一貫したメカニズムを示します 1、2、25、26。 神経剤と有機リンがコリン作動性シナプスで AChE を阻害し、それによってアセチルコリンの分解を阻害することはよく知られています (図 3A)。 放出されたアセチルコリンの蓄積は末端器官の過剰刺激を引き起こし、これはコリン作動性クリーゼとして認識されます1。

この研究におけるコリン作動性スペースの説明。 (A) 神経系におけるコリン作動性標的の位置と役割。 (B) ChEMBL データベースからのコリン作動薬のデータ収集。 すべての薬剤は、それぞれのコリン作動性標的を MySQL クエリとして使用して抽出されました。 nAChR ニコチン性アセチルコリンエステラーゼ受容体、mAChR ムスカリン性アセチルコリンエステラーゼ受容体、VAChT 小胞性アセチルコリントランスポーター、AChE アセチルコリンエステラーゼ、BuChE ブチリルコリンエステラーゼ。

したがって、知識が限られていたため、神経系に対するコリン作動性の影響の観点から、危険空間と有毒空間を調査する動機になりました(図 3)。 注目すべきことに、この研究の目的は、個々の化学物質のコリン作動性 DTI 予測だけでなく、既知の化学物質のコリン作動性パターンを使用した NE 化学物質からの CWA の検出でもありました。 この目的のために、コリン作動薬の構造活性相関 (SAR) を使用してパターンを記述するメタ予測子を設計しました (図 4)。 私たちの知る限り、この研究以前のバイオ/ケモインフォマティクスデータのメタ予測子またはメタ学習研究は、(1) 同種の手法を反復的に使用する 27、(2) 要素予測子の重みを明示的に調整する 28、29、または (3) 線形に調整する要素予測子を組み合わせる29。 さらに注目すべき点は、このような既知の研究では予測因子とメタ予測因子の両方をトレーニングするために同じデータセットを使用していたのに対し、この研究では 2 つの異種データセット (予測因子には ChEMBL のコリン作動性データ、メタ予測因子には ChEMBL の CWA/NPS) を使用しました。 以下の方程式に示すようにメタ予測器を設計しました。 予測子 \(f\) (式 1) はデータとパラメーターを入力として使用しましたが、メタ予測子 \(g\) は要素予測子 \(f_{ij}^{{T^{\) も使用しましたprime}}}\) の \(\left[ {i \times j} \right]\) 型の配列。 したがって、著者はそれらを「メタ予測者」と呼びました。

マルチタスクおよびデータ ワークフローのためのメタ予測器の設計。 淡い空色の矢印: コリン作動性 DTI モデルを構築するためのデータ フロー、青の矢印: 配列分類器を構築するためのデータ フロー、黄色の矢印: マルチタスクの今後のデータ フロー。 モデルリスト = [M1, M2, …, M20]、ターゲットリスト = [T1, T2, T3, T4, T5]、ML リスト = [ML1, ML2, ML3, ML4]、シードリスト = [S1, S2, … 、S10]、化合物リスト = [C11、C12、…、C21、…、Cij]、予測子の値リスト = [1、2]。

実際には、まずコリン作動薬の生化学的活性が、SAR を学習する機械の分子記述子とともに埋め込まれました。 第二に、ChEMBL (公開データベース) の実験活動データは、薬物標的相互作用 (DTI) と呼ばれる 5 つのコリン作動性標的と化学物質との関係を判断するように機械を訓練しました。 図 4 のトレーニング済み DTI モデル (4 種類の機械の 200 の分類器、10 の異なる分割データ、および 5 つのターゲット) は、化学物質の二項コリン作動性パターン (活性/不活性) を解明するために内部および外部で検証されました。 第三に、有害物質として既知の CWA および NPS のコリン作動性パターンが 200 のバイナリ分類子によって予測され、予測値は図 4 に示すような配列タイプのデータに変換されました。最後に、予測された配列データはメタデータとして使用されました。 CWA 検出モデルを構築するための予測子。 これらの有害な化学物質の実際のコリン作動性パターンが不明であっても、化学中心のアプローチによりパターンを推測することができました。 化学中心のアプローチは、2 つの類似した分子が類似の特性を持っている可能性が高い場合、生物学的標的を共有する可能性があるか、類似の薬理学的プロファイルを示す可能性があることを意味します 30,31,32,33,34,35。 注目すべきことに、この研究では、すべての化学物質 (ChEMBL、CWA、NPS) の化学構造と ChEMBL 化学物質のコリン作動性活性という 2 種類の実際のデータのみを使用しました (図 3B)。

設計されたメタ予測子を実現するために、2 種類の 2D 分子フィンガープリント (FCFP、ECFP) ですべてのコリン作動薬の分子構造が捕捉されました 36。 これらの拡張接続性と機能クラスのフィンガープリントはよく知られた分子表現であり、分子内の分子構造と官能基(独自の特性を持つ原子のグループ)を正確に記述し、医薬品設計や大規模な予測においてそれらの有能なパフォーマンスを示します36。 。 したがって、ECFP と FCFP は、ランダム フォレスト (RF)、サポート ベクター マシン (SVM)、デシジョン ツリー (DT)、および k 近傍法 (KNN) の機械学習 (ML) アルゴリズムの下でコリン作動性 SAR を記述するために使用されました 37,38 、39。 DTI モデルは、アセチルコリンエステラーゼ (AChE)、ブチリルコリンエステラーゼ (BuChE)、ニコチン性アセチルコリンエステラーゼ受容体 (nAChR)、ムスカリン性アセチルコリンエステラーゼ受容体 (mAChR)、および小胞性アセチルコリン トランスポーター (VAChT) の各コリン作動性標的に対してトレーニングされました。 まず、nAChR 分類器の統計的パフォーマンスを評価しました (表 1 および表 S2)。 予想通り、nAChR 分類器の受信者動作特性 (ROC) プロットは、トレーニングとテストへのデータ分割に関係なく、ロバストな予測可能性を実証しました (表 S2 および図 S2)。 テストデータの ROC 下の面積 (AUC) を比較した場合、RF、SVM、および KNN モデル (AUC: 0.961 ~ 0.998) は DT (AUC: 0.739 ~ 0.889) よりも高い AUC を生成しました。 さらに、精度、F1 スコア、マシューズ相関係数 (MCC) などの他の統計指標を適用しました。これらは、バイナリ分類を評価する際に、精度や F1 スコアよりも有益で真実なスコアとなります。 特に、すべてのモデルの MCC 値は信頼性があり (テスト: MCC ~ 0.438 ~ 0.978、トレーニング: 0.474 ~ 0.956)、テスト セットの MCC 値はトレーニング セットの MCC 値と同等でした。 第二に、mAChR データセットの学習は、AUC 0.807 ~ 0.998、MCC 0.608 ~ 0.974 とともに、nAChR モデルと同様のパターンに従いました (表 1 および表 S3)。 mAChR モデルは、nAChR モデルよりわずかに高い予測性能をもたらしました。 全体的な DT モデルは、RF、SVM、および KNN モデルよりも低いパフォーマンスを示しました。 第三に、BuChE モデルも、AUC 0.771 ~ 1.000、MCC 0.420 ~ 0.986 という信頼性の高い予測性能を示し、nAChR および mAChR の分類モデルよりわずかに低くなりました(表 1 および表 S5)。 第 4 に、AChE モデルからの分類メトリックをさらに分析しました。 データ サイズが大きい (n = 3098) にもかかわらず、分類パフォーマンスは、AUC 0.774 ~ 0.999 で同等のパフォーマンスであることがわかりました (表 1 および表 S4)。 最後に、最小のデータセットの VAChT モデルは、nAChR、mAChR、AChE、および BuChE のモデルを上回ります (表 1 および表 S6)。 コリン作動性 DTI モデルの予測力を視覚化するために、最高のパフォーマンスを示すモデルをアンサンブル AUC 値で表しました (図 5 および表 S7)。

DTI 分類モデルの統計的パフォーマンス。 受信者動作特性曲線下面積 (AUC) は、それぞれのターゲットの外部および内部検証で計算されました。

構築されたアレイ モデルの最初のタスクは、nAChR、mAChR、VAChT、AChE、および BUChE に対する「セット外 (トレーニング セットでもテスト セットでもない)」分子のコリン作動性活性を予測することです (図 4)。 この目的のために、すべてのコリン作動性 DTI 分類子は前のセクションですでに検証されています。 明らかに、NPS とデザイナードラッグ 19 からなる CWA と非 CWA は、ChEMBL コリン作動性データ 40 の対象外であり、トレーニング データでもテスト データでもありません。 CWA と CWA なしのコリン作動性パターンは、2 番目のタスクのメタ予測因子の役割を果たすと予測されました。 アレイ モデルの 2 番目のタスクは、「セット外」の分子の化学戦争の類似性を判断することです。 この目的のために、CWA と CWA なしの区別が CNN アルゴリズムによって学習されました。 CNN は、オブジェクト認識タスク、オブジェクト追跡、姿勢推定、テキスト検出と認識、視覚的顕著性検出、アクション認識、シーン ラベリングに広く使用されている深層学習フレームワークです41。 LeCun らの LeNet 42 と Hinton らの AlexNet 43 は、コンピュータ ビジョンの分野における CNN の人気を初期化しました。 GoogleNet44、VGGNEt45、ResNet46 などの精緻な CNN アーキテクチャ (バッチ正規化、フィルター、残差関数など) により、予測精度が向上しました。 データサイズの違いにもかかわらず、私たちのメタ予測器は、CNN モデルの代表的なデータセットである MNIST 手書きデータ (28 × 28 ピクセル、2 色) のバイナリピクセル配列と同じ特性を持っています。 この共通の特性により、MNIST データの画像ベースの学習のベンチマークを行うことができました。 まず、メタ予測子は、CNN 学習用に 5 × 4 形状の 2D 配列に変換されました。 調査の結果、図 6A のアーキテクチャ (図 S9 も参照) が最適な学習者として選択されました。 私たちの予想通り、2D アレイは大規模な NPS データから CWA を確実に検出しました。 エポックの増加に伴う学習中に、精度と損失の値は最適な値に達し、その値が維持されました (図 6B)。 有望な結果が得られたため、オーバーサンプリングとアンダーサンプリング (重複した配列値を示すデータの削除) を通じて、CWA と非 CWA の間のデータの不均衡を調整しようとしました。 図 7 に示すように、不均衡なネイティブ データ (モデル 01) をバランスの取れたオーバーサンプリング データ (モデル 03) と比較すると、統計的メトリクスでは偏差がわずかに減少していることが示されましたが、適合率 - 再現率曲線の下の面積 (AUPR) は減少しました。図 7A の値は、ネイティブ データ (不均衡) とオーバーサンプリング データ (平衡) の間で依然として比較可能であり、これらの統計値が単にデータの不均衡から生じたものではないことを証明しています。 マシューズ相関係数 (MCC)、F1 スコア、および精度 (図 7B) も、SMOTE (オーバーサンプリング) が CWA を見つける能力を確認したことを裏付けています 48。 さらに、2 種類のサンプリングにより、さまざまな形状の 2D または 3D 配列分類子を評価することができました。 2D 配列を [50 × 4] から [40 × 5] に再形成すると、検出能力が急激に低下し、要素予測子の配置の重要性が明らかになりました。 一部のデータがその変数 (要素予測子) 間の順序に依存している場合、そのデータはシーケンシャルであると言えます。 一方、2D 配列を 3D 配列に変換すると、驚くべきことに、[10 × 5 × 4] 形状の画像ベースの学習により、最悪の「モデル 04」の AUPR、MCC、および F1 スコアが改善され、異なるモデル間のパフォーマンスのギャップが減少しました。データ(図7)。 3D 配列を [5 × 10 × 4] に再形成した場合でも、これらの統計値の向上は維持されました。 さらに、同じ層数の CNN モデルの学習データから多層パーセプトロン (MLP) モデルを構築しました。 ベースラインとしての MLP モデルは、最良の CNN モデルよりも精度が非常に低く、F1 スコアが低いことが示されました。 詳細には、2 つの CNN モデルは MLP モデルよりも優れていましたが、MLP よりも優れたパフォーマンスを実現するにはアレイの形状が依然として重要でした (図 7C)。

3 つの異なる形状の配列分類子 (2D、3D、および再形状 3D) のトレーニング。 (A) この研究における CNN アーキテクチャ。 (B) コールバックによる早期停止を伴う CNN モデルの堅牢なトレーニング。 X 軸: エポック数 (トレーニング ユニット)、Y 軸: データ サンプリングに従って損失関数によって計算された精度または損失値 (実際の値と予測の間のギャップ) (モデル 01: ネイティブ、モデル 02:モデル 01 データからの重複した配列値の削除、モデル 03: モデル 01 データの SMOTE オーバーサンプリング、モデル 04: モデル 02 データの SMOTE オーバーサンプリング)。

データサンプリングに応じた 3 つの異なる形状の配列分類器の CWD 検出パフォーマンス (モデル 01 ~ 04)。 (A) CNN モデルの適合率-再現率曲線、(B) CNN モデルのパフォーマンス (MCC、F1 スコア、精度)、(C) ベースライン モデルとしての多層パーセプトロンとの比較。

図 7 と表 S8 の統計的検証に基づいて、アレイ分類器は NE 化学物質の CWA 検出の準備が整いました。 明らかに、化学中心の仮定に基づく化学的脅威のこの予測モデルには、入手可能なデータと不可能な実験的検証により議論の余地があります。 しかし、このような裁判はそれだけではありません。 たとえば、OECD も QSAR モデル ツールボックスを開発し、リスク評価に提供しています10。 一般的な QSAR モデルは予測ドメイン内で高精度を保証できますが、QSAR モデルには同属系列セットを超えるドメインという制限があります。 たとえば、OECD QSAR ツールボックスの 6 つの急性毒性モデルが CWA を予測した場合、かなりの CWA が予測領域外のため予測値を返すことができず、約 10 の失敗率を示しました。 50% (表 2)。 したがって、革新的な研究はドメインの制限を克服する必要があります。 さらに、QSAR モデルは通常、ab initio メソッドを使用して構築することはできません。 残念ながら、CWA データの毒性指標はまれであり、信頼できる予測モデルを構築するには十分ではありません。 明らかに、分類モデルは構築できますが、予測領域は依然として有機リンに偏っています。 したがって、現在のデータ制限の構成を調査するために、コリン作動性メタ予測因子を提案しました。 この研究と一般的な QSAR モデルの顕著な違いは、従属変数と独立変数の定義です。 典型的な QSAR モデルは、従属変数として「実験活性/毒性指数」を使用し、独立変数として「化学構造とその記述子」を使用します。 一方、この研究の CNN モデルでは、化学構造もその分子記述子も使用していません。 化学構造のコード化はコリン作動性メタ予測子に置き換えられました。 CWA のメカニズムに関する現在の情報は AchE とコリン作動性の影響について豊富であるため、この研究では化学的脅威を検出するためのコリン作動性パターンのみが記載されています。 将来、データが更新されれば、この方法論は、最近報告された毒性メカニズムである脳モノアシルグリセロール(MAG)リパーゼ活性や内因性カンナビノイド分解酵素である脂肪酸アミドヒドロラーゼ(FAAH)などの既知の有害化学物質の他の薬理学的効果にも適用できる可能性があります。有機リン系殺虫剤2,16。 たとえ殺虫剤の MAG および FAAH 阻害が報告されたとしても、(MAG または FAAH 薬剤の) データをコリン作動薬のデータと同じくらい更新した後であれば、そのような試験はより実行可能になるでしょう。

極端に不均衡なデータにもかかわらず、CWA のコリン作動性パターンは、許容可能な予測パフォーマンスを達成するためにアレイタイプのメタ予測子を通じて学習されました。 さらに、この学習により、化学物質のマルチタスクが可能になります。4 つの ML アルゴリズムに基づく 5 つのコリン作動性標的の DTI 予測と、CNN アルゴリズムに基づく CWA 検出です。 前者のタスクはそれぞれの DTI 分類子の内部および外部検証を通じて検証されましたが、後者のタスクは CWA および非 CWA を使用して検証されました。 注目すべきことに、この研究は、定量的な構造と毒性の関係について限られた情報しか持たない有害物質を記述するための新しい方法を示唆している。 したがって、これは、最近の将来の北東部の化学物質による化学的脅威を制御および予測する研究に貢献します。

あらゆる機械学習アルゴリズムは、構造と報告されたアクティビティ データに密接に依存しています。 近年、ChEMBL データベースは、機械学習アプリケーションの化学データを取得するための主要なソースとなっています。 ここでは、ChEMBL データベース バージョン 2449 を選択し、分子構造 (カノニカル スマイル)、活性 ID、標準値で構成される MySQL クエリを使用してコリン作動薬 (nAChR、mAChR、VAChT、AChE、および BUChE) の構造および特性データを取得しました。阻害活性と標準関係および標準単位 (ナノモル)、アッセイ ID、およびターゲット ID。 さらに、CWA および NPS の分子構造は文献 1、2、19 および NPS-datahub50 から収集されました。 データのすべての操作 (ソート、マージ、重複データのクリーニング、および二項化) は、KNIME 分析プラットフォーム 51 によって実行されました。 補足セクションでは、各ターゲットの化学物質の組成について説明します。 簡単に説明すると、nAChR、mAChR、AChE、BuChE、VAChT、CWA、および NPS に属する合計 1818、6944、3098、1382、302、95、および 3126 の化学物質がそれぞれ選択されました。

化合物構造 x、アクティビティ y、アッセイ i、ターゲット辞書 k から、x.molregno、canonical_smiles、 activity_id、y.assay_id、standard_value、standard_relation、standard_units、i.tid、k.target_type、k.pref_name、k.organism を選択します。

x.molregno = y.molregno および y.assay_id = i.assay_id および i.tid = k.tid および k.tid = 10532 INTO outfile "chembl_target_BuChE.csv" フィールドは ',' で終了し、行は '/n' で終了します。 ;

あらゆる化学データの 8 つの 2D 分子フィンガープリントが、(1) 拡張接続性フィンガープリント (ECFP) と機能クラス フィンガープリント (FCFP) の 2 つのタイプ、および (2) 4 つの異なる直径 (0、2、4、6) を使用して生成されました。固定の 1024 ビット ベクトル サイズ。 特に、ECFP は正確な原子特性 (原子番号、電荷、水素数など) を捕捉しますが、FCFP は分子内の原子の機能 (薬理的) 特徴 (水素供与体/受容体、極性、芳香族性など) を捕捉します。 CDK ツールキット 52 は両方のフィンガープリント計算に使用されました。 生成されたフィンガープリントは分割され、それぞれの二項アクティビティ値と結合されて、学習用の埋め込みデータ マトリックスが作成されました。

4 つの機械学習アルゴリズム (ランダム フォレスト、デシジョン ツリー、サポート ベクター マシン、k 最近傍) を 10 個の異なるランダム シード番号を持つデータ マトリックスに適用して、R の分類と回帰トレーニング (CARET) パッケージで分類モデルを構築します。環境。 すべてのモデルは、トレーニングとテストの 70:30 分割比および k 分割 (k = 10) 交差検証メソッドの条件で内部および外部で検証されました。 簡単に言うと、k 分割相互検証では、入力データが k 個の等しいサイズのサブサンプルにランダムに分割されます。 k 個のサブサンプルのうち 1 つはモデルをテストするための検証データとして保持され、残りの k-1 個のサブサンプルはトレーニング データとして使用されます。 次に、この k 分割相互検証手順が k 回 (分割) 繰り返され、k 個のサブサンプルのそれぞれが検証データとして 1 回だけ使用されます。

構築されたモデルは、200 バイナリ ビット (5 つのコリン作動性ターゲット × 4 つの機械学習メソッド × 10 のシード番号) のメタ予測子 (メタデータ) を生成しました。 メタデータは、([50 × 4]、[5 × 10 × 4]、[10 × 5 × 4]) のいくつかの形状配列を通じて埋め込まれました。 畳み込み層、プーリング層、平坦化層、密層のさまざまな層で構成される CNN モデルは、Adam オプティマイザー 53 を使用して、最大 100 エポック、バッチ サイズ 32、学習率 0.01 のハイパーパラメーターを使用して構築されました。 EarlyStopping 基準は、CNN モデルの過剰適合を防止し、学習を早期に終了するために導入されました。 「ソフトマックス」活性化関数は、化学戦争らしさの確率分布を定義するために使用されました54。 学習パフォーマンスとロバスト性は、エポック番号の増加に伴う精度と損失値によって測定されました。 予測されたクラス値と実際のクラス値の間の偏差を測定するための損失関数として、バイナリ クロス エントロピーが使用されました。

各モデルのパフォーマンスは、マシューズ相関係数 (MCC)、精度、真陽性 (TP)、真陰性 (TN)、偽陽性 (FP) に基づく受信者動作特性曲線下面積 (AUC) という 3 つの分類メトリックを使用して評価されました。 )、偽陰性 (FN)。 これらのメトリクスは、構築されたモデルの統計的パフォーマンスと堅牢性を評価します。

すべての著者は、本物の研究研究の倫理基準を受け入れました。

Python コードと洗練されたデータは GitHub で入手できるようになります。 https://github.com/college-of-pharmacy-gachon-university/Array_Classifier。

Chauhan, S. et al. 化学兵器。 環境。 有毒。 薬理学。 26、113–122。 https://doi.org/10.1016/j.etap.2008.03.003 (2008)。

論文 CAS PubMed Google Scholar

Kim, K.、Tsay, OG、Atwood, DA & Churchill, DG 化学兵器の破壊と検出。 化学。 改訂 111、5345–5403。 https://doi.org/10.1021/cr100193y (2011)。

論文 CAS PubMed Google Scholar

リン、TJ 他台湾における有機リン系農薬中毒の疫学。 クリン。 有毒。 46、794–801。 https://doi.org/10.1080/15563650801986695 (2008)。

記事 Google Scholar

ガネサン K.、ラザ S.、ヴィジャヤラガバン R. 化学兵器エージェント。 J.Pharm. バイオオール。 科学。 2、166。 https://doi.org/10.4103/0975-7406.68498 (2010)。

記事 CAS Google Scholar

Munro, N. 有機リン酸塩化学兵器 GA、GB、および VX の毒性: 国民保護への影響。 環境。 健康の観点。 102、18–37。 https://doi.org/10.1289/ehp.9410218 (1994)。

論文 CAS PubMed PubMed Central Google Scholar

加湿器消毒剤スキャンダルで推定14,000人死亡:研究。 聯合ニュース社 (2022 年 3 月 28 日にアクセス); https://ja.yna.co.kr/view/AEN20200727006300315

Paek, D. et al. 1994 年から 2011 年までの韓国における加湿器消毒剤による肺損傷の全国的研究: 発生率と用量反応関係。 アン。 ATS 12、1813 ~ 1821 年。 https://doi.org/10.1513/AnnalsATS.201504-221OC (2015)。

記事 Google Scholar

除草剤、I. of M. (US) C. to R. the HE in VV of E. to (1994)。 除草剤の使用をめぐる論争の歴史。 National Academies Press (米国) (2021 年 7 月 14 日にアクセス); https://www.ncbi.nlm.nih.gov/books/NBK236351/

Manikkam, M.、Tracey, R.、Guerrero-Bosagna, C. & Skinner, MK ダイオキシン (TCDD) は、成人発症疾患のエピジェネティックな世代間遺伝と精子のエピ突然変異を誘導します。 PLoS ONE 7、e46249。 https://doi.org/10.1371/journal.pone.0046249 (2012)。

論文 ADS CAS PubMed PubMed Central Google Scholar

化学物質の評価 - OECD (2022 年 3 月 28 日にアクセス); https://www.oecd.org/chemicalsafety/risk-assessment/

化学物質のリスク管理 - OECD (2022 年 3 月 28 日にアクセス); https://www.oecd.org/chemicalsafety/risk-management/

Schmidt、CW TSCA 2.0: 化学物質リスク管理の新時代。 環境。 健康の観点。 124、A182~A186。 https://doi.org/10.1289/ehp.124-A182 (2016)。

論文 PubMed PubMed Central Google Scholar

Gharami, S.、Aich, K.、Das, S.、Patra, L. & Mondal, TK 新しいキノリンベースのレシオメトリック スイッチによる有機リン神経剤模倣物 (DCP) の容易な検出。 新しいJ.Chem. 43、8627–8633。 https://doi.org/10.1039/C9NJ02218J (2019)。

記事 CAS Google Scholar

Agrawal, M.、Sava Gallis, DF、Greathouse, JA & Sholl, DS 吸着挙動の予測において、化学兵器の一般的な模擬物質はどの程度有用ですか? J.Phys. 化学。 C 122、26061–26069。 https://doi.org/10.1021/acs.jpcc.8b08856 (2018)。

記事 CAS Google Scholar

モンドロック、J.E. et al. 金属有機骨格を使用した化学兵器の破壊。 ナット。 メーター 14、512–516。 https://doi.org/10.1038/nmat4238 (2015)。

論文 ADS CAS PubMed Google Scholar

Eddleston, M. 有機リン系殺虫剤自家中毒の新規臨床毒物学および薬理学。 アンヌ。 ファーマコル牧師。 有毒。 59、341–360。 https://doi.org/10.1146/annurev-pharmtox-010818-021842 (2019)。

論文 CAS PubMed Google Scholar

欧州薬物および薬物中毒監視センター。 (2015年)。 ヨーロッパの新しい精神活性物質: EU 早期警告システムからの最新情報、2015 年 3 月。LU: Publications Office (2022 年 3 月 27 日にアクセス)。 https://doi.org/10.2810/372415

欧州薬物および薬物中毒監視センター。 そしてヨーロッパ警察署。 (2016年)。 2016 年の EU 医薬品市場レポート: 詳細な分析。 LU: Publications Office (2022 年 3 月 27 日にアクセス); https://doi.org/10.2810/219411

アーバス、A.ら。 NPS データ ハブ: 新しい精神活性物質の Web ベースのコミュニティ主導の分析データ リポジトリ。 のために。 化学。 9、76–81。 https://doi.org/10.1016/j.forc.2018.05.003 (2018)。

記事 CAS Google Scholar

Shafi, A.、Berry, AJ、Sumnall, H.、Wood, DM & Tracy, DK 新しい精神活性物質: レビューと最新情報。 それで。 上級精神薬学。 10、2045125320967197。https://doi.org/10.1177/2045125320967197 (2020)。

論文 PubMed PubMed Central Google Scholar

化学的脅威のリスク評価と管理のための化学ネットワーク アルゴリズム - フラー - 2012 - Angewandte Chemie International Edition - Wiley Online Library (2022 年 3 月 28 日にアクセス); https://doi.org/10.1002/anie.201202210

Carbó-Dorca, R. 分子空間における未知の分子特性の決定。 J.Math. 化学。 60、353–359 (2022)。

記事 MathSciNet Google Scholar

ドブソン、CM 化学空間と生物学。 自然 432、824–828。 https://doi.org/10.1038/nature03192 (2004)。

論文 ADS CAS PubMed Google Scholar

https://www.opcw.org/chemical-weapons-convention

Casida、JE 有機リン異物毒性学。 アンヌ。 ファーマコル牧師。 有毒。 57、309–327。 https://doi.org/10.1146/annurev-pharmtox-010716-104926 (2017)。

論文 CAS PubMed Google Scholar

Picard, B.、Chataigner, I.、Maddaluno, J. & Legros, J. 化学兵器、関連する類似物質、および現代の中和方法の紹介。 10(2019)。

Hansen, JV 予測子の結合: 5 つのメタ機械学習手法の比較。 情報科学。 119、91–105 (1999)。

記事 Google Scholar

ワン、J.ら。 重み付け投票と制限付きグリッド検索パラメーター選択によるリン酸化部位のメタ予測。 核酸研究所 36、e22–e22 (2008)。

記事 Google Scholar

Manvalan, B.、Basith, S.、Shin, TH、Wei, L. & Lee, G. mAHTPred: 効果的な特徴表現を使用して降圧ペプチドの予測を改善するための配列ベースのメタ予測子。 バイオインフォマティクス 35、2757–2765 (2019)。

記事 CAS Google Scholar

カイザー、MJ 他リガンド化学によるタンパク質薬理学の関連。 ナット。 バイオテクノロジー。 25、197–206。 https://doi.org/10.1038/nbt1284 (2007)。

論文 CAS PubMed Google Scholar

OECD QSAR ツールボックスは化学中心主義の仮定を使用しました - OECD (2022 年 3 月 28 日にアクセス)。 https://www.oecd.org/chemicalsafety/risk-assessment/oecd-qsar-toolbox.htm

Venkanna、A. et al. 新規足場、アノマー N,N-ジアリールアミノ テトラヒドロピランの薬理学的使用: 分子類似性検索、化学中心性標的プロファイリング、および実験的証拠。 科学。 議員 7、12535。https://doi.org/10.1038/s41598-017-12082-3 (2017)。

論文 ADS CAS PubMed PubMed Central Google Scholar

Kumar, S.、Jang, C.、Subedi, L.、Kim, SY & Kim, M. 双方向のターゲット リング システムのデュアル スクリーニングによる FDA 承認のリング システムの再利用。 科学。 議員 10、21133。https://doi.org/10.1038/s41598-020-78077-9 (2020)。

論文 ADS CAS PubMed PubMed Central Google Scholar

Lee, S.-H.、Ahn, S. & Kim, M. 3D 化学的類似性を使用したクエリ化合物と薬物標的クラスの比較。 内部。 J.Mol. 科学。 21、4208。https://doi.org/10.3390/ijms21124208 (2020)。

論文 PubMed Central Google Scholar

Dhorma, LP et al. 前例のない 1,5-オキサザ スピロキノン足場をエピジェネティック領域における SMYD2 阻害剤に位置づける。 ユーロ。 J.Med. 化学。 227、113880。https://doi.org/10.1016/j.ejmech.2021.113880 (2022)。

論文 CAS PubMed Google Scholar

Rogers, D. & Hahn, M. 拡張接続フィンガープリント。 J.Chem. 情報モデル。 50、742–754。 https://doi.org/10.1021/ci100050t (2010)。

論文 CAS PubMed Google Scholar

Kumar, S. & Kim, M. SMPLIP-Score: シンプルで解釈可能なオンザフライ相互作用フィンガープリント パターン記述子からリガンド結合親和性を予測します。 J.Cheminform. 13、28。 https://doi.org/10.1186/s13321-021-00507-1 (2021)。

論文 CAS PubMed PubMed Central Google Scholar

Lee, J.、Kumar, S.、Lee, S.-Y.、Park, SJ & Kim, M. 機械学習法に基づく潜在的な S100A9 阻害剤を特定するための予測モデルの開発。 フロント。 化学。 https://doi.org/10.3389/fchem.2019.00779 (2019)。

論文 PubMed PubMed Central Google Scholar

サディク、O.ら。 マルチアレイ センサーを備えたサポート ベクター マシンを使用した、有機リン酸塩神経剤模倣物の検出と分類。 J.Chem. 情報計算します。 科学。 44、499–507。 https://doi.org/10.1021/ci034220i (2004)。

論文 CAS PubMed Google Scholar

ゴールトン、A.ら。 2017 年の ChEMBL データベース。Nucleic Acids Res. 45(D1)、D945–D954 (2017)。

記事 CAS Google Scholar

Aloysius, N. & Geetha, M. ディープ畳み込みニューラル ネットワークに関するレビュー。 内部。 会議共通。 信号プロセス。 (ICCSP) 2017、0588–0592。 https://doi.org/10.1109/ICCSP.2017.8286426 (2017)。

記事 Google Scholar

LeCun、Y.ら。 逆伝播ネットワークによる手書き数字認識。 神経情報処理システムの進歩 2、(1989)。

Krizhevsky, A.、Sutskever, I.、および Hinton, GE によるディープ畳み込みニューラル ネットワークによる Imagenet 分類。 神経情報処理システムの進歩 25、(2012)。

セゲディ、C.ら。 畳み込みでさらに深くなる。 コンピューター ビジョンとパターン認識に関する IEEE 会議議事録 1 ~ 9 (2015)。

Simonyan, K. & Zisserman, A. 大規模な画像認識のための非常に深い畳み込みネットワーク。 プレプリント arXiv:1409.1556 (2014)。

He, K.、Zhang, X.、Ren, S.、Sun, J. 画像認識のための深層残差学習。 コンピューター ビジョンとパターン認識に関する IEEE 会議議事録 770–778 (2016)。

Deng, L. 機械学習研究用の手書き数字画像の mnist データベース。 IEEE 信号プロセス。 マグ。 29(6)、141–142 (2012)。

記事 ADS Google Scholar

Chawla、NV、Bowyer、KW、Hall、LO、Kegelmeyer、WP SMOTE: 合成少数派オーバーサンプリング技術。 J.アーティフ。 内部。 解像度 16(1)、321–357 (2002)。

数学 Google Scholar

ChEMBL データベース (2022 年 3 月 28 日にアクセス); https://www.ebi.ac.uk/chembl/

https://www.emcdda.europa.eu、https://nps-datahub.com/

Berthold, MR et al. KNIME - Konstanz 情報マイナー: バージョン 2.0 以降。 AcM SIGKDD エクスプローラー。 ニュースレット。 11(1)、26–31 (2009)。

記事 Google Scholar

スタインベック、C.ら。 化学開発キット (CDK): 化学およびバイオインフォマティクス用のオープンソース Java ライブラリ。 J.Chem. 情報計算します。 科学。 43(2)、493–500。 https://doi.org/10.1021/ci025584y (2003)。

論文 CAS PubMed PubMed Central Google Scholar

Kingma, DP & Ba, J. Adam: 確率的最適化の手法。 https://doi.org/10.48550/arxiv.1412.6980。 (2014年)。

Goodfellow, I.、Bengio, Y.、Courville, A. 6.2.2.3 マルチヌーイ出力分布のソフトマックス単位。 ディープラーニング 180–184 (MIT Press、2016)。

Google スカラー

リファレンスをダウンロードする

著者らは、Young Mi Yoon 教授の有益なアドバイスに感謝したいと思います。

この研究は、教育科学技術省から資金提供を受けた韓国国立研究財団(NRF)の基礎科学研究プログラム(番号:2017R1E1A1A01076642、2020R1I1A1A01074750)の支援を受けました。

これらの著者、スレンドラ・クマールとチャンドニー・クマリも同様に貢献しました。

大韓民国仁川市延寿区ハンバクモエイロ191 カチョン大学薬学部薬泉カチョン薬学研究所薬学科

スレンドラ・クマール、チャンドニー・クマリ、アン・サンジン、キム・ミヒョン

亜州大学人工知能学部、水原、16499、大韓民国

アン・サンジン

KEIS データ管理部、56 Mullae-ro 20-gil, Yeongdeungpo-gu, Soul, Republic of Korea

キム・ヒョンレ

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

MK がこの研究を考案し、設計しました。 MK の計画に基づき、CK と SK がすべてのモデリングとデータ作業を実行しました。 MK、CK、SK がデータを分析しました。 SA は CNN アーキテクチャの構築を支援しました。 HK は、CNN モデルの評価とアーキテクチャの修正をアドバイスしました。 MKとSKが原稿を書き、修正しました。 MK は分子モデリング研究室と合成研究作業施設を提供しました。 著者全員が最終原稿を読んで承認しました。 すべての著者は、ジャーナルへの投稿と著者であることに同意しました。

キム・ミヒョンさんへの手紙。

著者らは競合する利害関係を宣言していません。

シュプリンガー ネイチャーは、発行された地図および所属機関における管轄権の主張に関して中立を保ちます。

オープン アクセス この記事はクリエイティブ コモンズ表示 4.0 国際ライセンスに基づいてライセンスされており、元の著者と情報源に適切なクレジットを表示する限り、あらゆる媒体または形式での使用、共有、翻案、配布、複製が許可されます。クリエイティブ コモンズ ライセンスへのリンクを提供し、変更が加えられたかどうかを示します。 この記事内の画像またはその他のサードパーティ素材は、素材のクレジットラインに別段の記載がない限り、記事のクリエイティブ コモンズ ライセンスに含まれています。 素材が記事のクリエイティブ コモンズ ライセンスに含まれておらず、意図した使用が法的規制で許可されていない場合、または許可されている使用を超えている場合は、著作権所有者から直接許可を得る必要があります。 このライセンスのコピーを表示するには、http://creativecommons.org/licenses/by/4.0/ にアクセスしてください。

転載と許可

Kumar, S.、Kumari, C.、Ahn, S. 他。 コリン作動性アレイタイプのメタ予測子に基づく化学兵器の予測。 Sci Rep 12、16709 (2022)。 https://doi.org/10.1038/s41598-022-21150-2

引用をダウンロード

受信日: 2022 年 6 月 15 日

受理日: 2022 年 9 月 23 日

公開日: 2022 年 10 月 6 日

DOI: https://doi.org/10.1038/s41598-022-21150-2

次のリンクを共有すると、誰でもこのコンテンツを読むことができます。

申し訳ございませんが、現在この記事の共有リンクは利用できません。

Springer Nature SharedIt コンテンツ共有イニシアチブによって提供

コメントを送信すると、利用規約とコミュニティ ガイドラインに従うことに同意したことになります。 虐待的なもの、または当社の規約やガイドラインに準拠していないものを見つけた場合は、不適切としてフラグを立ててください。