NHANES 2013~2016 における揮発性有機化合物レベルと慢性閉塞性肺疾患との関連

Machine Learning


調査対象母集団

NHANES は、米国疾病管理予防センター (CDC) が開始し、国立健康統計センター (NCHS) が管理する包括的な調査プロジェクトで、米国民の健康と栄養に関するデータを収集、分析することを目的としています。NHANES の主な目的は、食習慣、栄養摂取、健康状態、慢性疾患、人体計測値、生化学マーカーなど、米国民の健康指標を測定し、監視することです。この分析では、20,146 人の参加者を対象とした 2 回の調査サイクル (2013~2014 年と 2015~2016 年) のデータを組み合わせました。参加者全員からインフォームド コンセントが得られました。すべての方法は、関連するガイドラインと規制に従って実施されました。

慢性閉塞性肺疾患の診断がなかったため、合計 8,658 人が除外され、VOC データが不足していたため 5,940 人が除外されました。さらに 665 人が他の共変数のデータが不足していたため除外されました。最終的に、男性 2,411 人と女性 2,572 人を含む 4,983 人がこの研究に含まれました。詳細情報は図 1 に示されています。

図1
図1

NHANE 2013~2016 の研究参加者のフロー図。

データ収集

VOCの評価

VOC は、溶剤、脱脂剤、洗浄剤として一般的に使用され、工業製品や消費者製品で広く使用されている化学物質の幅広いカテゴリです。VOC の測定は、主に家庭の水道水と人間の全血中の VOC の定量測定を伴います。家庭の水に含まれる VOC には、クロロホルム、ブロモジクロロメタン、ジブロモクロロメタン、ブロモホルムなどのトリハロメタン (THM) が含まれます。6,7分析には、質量分析法 (MS) とキャピラリーガスクロマトグラフィー (GC) を組み合わせたヘッドスペース固相マイクロ抽出 (SPME) を採用しています。クロロホルム、ブロモジクロロメタン、ジブロモクロロメタン、ブロモホルムなどの血液消毒副生成物 (DBP) やメチル tert-ブチルエーテル (MTBE) の測定は、GC と高解像度 MS を組み合わせて行います。血液中の微量レベルの DBP と MTBE の定量は、選択イオンモニタリングと同位体希釈法を使用して行います。ベンゼン、テトラクロロエチレン、1,4-ジクロロベンゼン、トルエン、o-キシレン、p-キシレンの定量測定は、ガスクロマトグラフィー法と組み合わせた SPME を使用して行います。8本研究では、テトラクロロエチレン、ベンゼン、1,4-ジクロロベンゼン、o-キシレン、トルエン、mp-キシレン、クロロホルム、ブロモジクロロメタンなど、検出限界を超えて検出されたNHANESデータベースのいくつかのVOCを調査し、COPDとの関係を調査しました。

COPDの診断

COPD の診断は、主に訓練を受けた技術者が実施するスパイロメトリー検査によって行われ、その後、専門の呼吸器科医がデータの解釈と評価を行います。欧州呼吸器学会 (ERS) と米国胸部学会 (ATS) が制定したスパイロメトリーのガイドラインによると、1 秒間の努力呼気量 (FEV1) と努力肺活量 (FVC) の比率が 0.70 未満の場合、COPD の兆候となります。

さらに、参加者が「医師または他の医療専門家から肺気腫、慢性閉塞性肺疾患(COPD)、または慢性気管支炎であると言われたことがありますか?」という質問に肯定的に答えた場合、COPDと記録されます。さらに、選択的ホスホジエステラーゼ4阻害薬、肥満細胞安定薬、ロイコトリエン修飾薬、吸入コルチコステロイドを気管支拡張薬として使用していること、40歳以上であること、喫煙歴があること、慢性気管支炎を患っていることが、COPDの診断基準とみなされます。9

共変量

共変量には、性別、年齢、人種/民族(メキシコ系アメリカ人、非ヒスパニック系黒人、非ヒスパニック系白人、その他のヒスパニック系、その他の人種(混血を含む)、教育水準(高校前、高校、大学以上)、BMI(< 25、[2530)、≥30)、貧困所得比率(PIR)(<1、1–3、≥3)、飲酒状況(元飲酒者(以前は飲酒していたが現在はやめた人)、飲酒経験なし(アルコール飲料を一切飲んだことがない人)、軽度飲酒者(1日1~2杯の標準ドリンクを飲む人)、中等度飲酒者(男性は1日4杯まで、女​​性は3杯までを飲む人)、重度飲酒者(男性は1日4杯以上、女性は3杯以上を飲む人)が含まれた。女性))。[2530) ≥ 30)PovertyIncomeRatio(PIR)(< 11–3 ≥ 3)anddrinkingstatus(Formerdrinker(individualswhousedtodrinkbuthavenowstopped)Neverdrinker(individualswhohaveneverconsumedanyalcoholicbeverages)Milddrinker(individualswhoconsumebetween1and2standarddrinksperday)Moderatedrinker(individualswhoconsumeupto4standarddrinksperdayformenandupto3forwomen)Heavydrinker(individualswhoconsumemorethan4standarddrinksperdayformenandmorethan3forwomen))

統計分析

私たちの分析では、各参加者に NHANES 推奨のサンプル重みを適用し、推奨される重み付け方法を採用しました。COPD グループと非 COPD グループの違いを比較するために、連続変数を加重平均 (± 標準偏差) として表し、統計的差異を説明するために加重 t 検定を使用しました。カテゴリ変数はサンプル数 (加重パーセンテージ) として表し、統計的差異を説明するために加重カイ 2 乗検定を使用しました。連続 VOC 濃度を四分位数 (Q1: < 25 パーセンタイル、Q2: 25~50 パーセンタイル、Q3: 50~75 パーセンタイル、Q4: 75~100 パーセンタイル) で分類しました。8 つの有機化合物の特定の濃度分布については、表 1 に詳しく記載されています。

表1 各種揮発性有機化合物の濃度分布

加重ロジスティック回帰モデルを使用して、血中VOCとCOPDの関係を評価し、粗いモデル、モデル1(性別、年齢、人種のみに基づいて調整)、およびモデル2(モデル1に基づいてPIR、BMI、教育レベル、飲酒状況の調整を含む)を推定しました。テトラクロロエテン、ベンゼン、1,4-ジクロロベンゼン、O-キシレン、Mp-キシレン、トルエン、クロロホルム、ブロモジクロロメタンとCOPDの統計的差異を観察し、制限付き3次スプライン(RCS)を使用して、ベンゼン、トルエン、Mp-キシレン、O-キシレンとCOPDの血中濃度間の潜在的な非線形関係を調査しました。さらに、VOC中の有機化合物への混合曝露とCOPDの関係、および各化合物の加重を分析するためにWQS回帰モデルを構築しました。10

$$ {\text{g}}\left( {\upmu } \right) = \beta_{o} + \beta_{1} \left( {\mathop \sum \limits_{i = 0}^{c} \omega_{i} \varphi_{i} } \right) + z^{\prime } \Phi $$

$$ WQS = \mathop \sum \limits_{i = 1}^{c} \overline{\omega }_{i} \varphi_{i} $$

基本的な加重指数モデルは次のとおりです。 \({\upbeta }_{{\text{o}}}\) 切片を表す。 \({\upbeta }_{1}\) は回帰係数を表し、cは分析に含まれる有機化合物の数を表す。 \({\text{z}}^{\prime }\) Φは共変量の行列と係数を表し、 \({\upomega }_{{\text{i}}}\) は重み付けされたインデックスを表し、各インデックスは0から1の範囲(0 ≤ \({\upomega }_{{\text{i}}}\) ≤ 1)、合計が 1 になります。\(\varphi_{i}\) は各有機化合物の濃度の四分位数を表し、( \(\varphi_{i}\) = 0,1,2,3) はそれぞれ第 1 四分位、第 2 四分位、第 3 四分位、第 4 四分位を表します。 \(\left( {\mathop \sum \nolimits_{i = 0}^{c} \omega_{i} \varphi_{i} } \right)\)c 成分の加重四分位数の合計です。\({\mathbf{g}}\left( {{\varvec{\upmu}}} \right)\)は、任意の微分可能なリンク関数を表します。また、ガウス分布に適合する線形関数を想定し、データをトレーニングセット(60%)と検証セット(40%)にランダムに分割し、トレーニングセット内の8つの有機化合物の重みを推定しました。11さらに、二重汚染物質モデルを使用して、BMI、年齢、PIR、人種、飲酒状況を調整し、8つのVOCへの曝露とCOPDとの関連性を評価しました。

私たちは、NHANESデータベースから抽出したVOCと人口統計データを使用して、6つの機械学習モデルを開発し構築しました。これにはロジスティック回帰(LR)が含まれます。12、ランダムフォレスト(RF)13、エクストリーム グラディエント ブースティング (XGBoost)14、サポートベクターマシン(SVM)15、決定木(DT)16、および単純ベイズ分類器(NBC)17、COPDの発生率を予測しました。6つの機械学習モデルの予測能力は、受信者動作特性(ROC)曲線を描き、曲線下面積(AUC)を使用して評価されました。また、最良モデルの曲線下面積(AUC)、精度、正確性、再現率、F1スコアについても説明しました。

上記の統計分析に対応する図はすべて、統計計算用Rプロジェクト(バージョン4.2.3)を使用して実行され、すべてのテストは両側検定で行われた。 p0.05 未満の値は有意であるとみなされます。

倫理的承認とインフォームドコンセント

NHANES 契約は、国立健康統計センター研究倫理委員会によって審査され、承認されています。すべての参加者は参加前に書面によるインフォームドコンセントを提出しました。



Source link

Leave a Reply

Your email address will not be published. Required fields are marked *