1. Methodsの基本
Methodsの書き方のポイントはいくつかありますが重要なのは、研究者が再現できるように書く、という事です。もちろん書くスペースは限られているのですが、スペースが足りない場合はsupplemental materialを利用して出来るだけ丁寧に書くようにしましょう。筆者は昔Methodsに入りきらないところは削除していたのですが、指導医にsupplemental materialに記載すべきだと指導されてからは、先にしっかりをMethodsを書き、全体の分量を見て入りきらないところはsupplementalに入れるようになりました。
記載する内容は研究目的によって異なりますが、基本的な構成は下記です。
1. Study design and settings
2. Study participants (inclusion and exclusion criteria)
3. Data collection / Measurements
4. Exposures / Predictors
5. Outcomes
6. Statistical analysis
2. Reporting Guidelinesに沿って書くこと
論文はreporting guidelinesが存在するので、まずは一読しましょう。このガイドラインに沿って記載すればほぼ間違いありません。研究内容によっては必ずしも全てがガイドラインの内容と合致するわけではありませんが、基本は必ず押さえるべきです。Reporting guidelinesはEQUATOR Networkにあります。
この時悩みがちなのが、「自分はどのガイドラインを用いれば良いのか?」です。例えば観察研究ならSTROBEですし、診断の研究ならSTARDと書かれています。でも診断に関する研究も観察研究ですから混乱しがちです。さらにはextensionと言って、STROBEでも栄養疫学専用のSTROBE-nutや日常集められる電子カルテデータをもちいたRECORD、機械学習予測モデル用のTRIPOD-AIなんかもあり、初学者にはどれを用いれば良いのか混乱するケースが多いようです。覚えておく必要があるのは下記のうち、特にSTROBE/RECORDとTRIPODでしょうか。また症例報告を書く場合はCAREガイドラインがあるので参考にしましょう。
ChatGPTに「STROBE(や他のガイドライン)に準じてMethodsに書くべきことをリストして」と聞けば結構いい感じで教えてくれるので参考にするのもありでしょう。完璧ではないので、自分で確認しながら行うことは大事です。
- STROBE:観察研究でも、特にレジストリやコホートを用いて「XはYのリスク因子であった」とするような関連性の研究や因果推論に用います。例えば、「肺炎による院内死亡のリスク因子は高齢、抗菌薬投与の遅れ、糖尿病の合併であった」という論文や「敗血症患者においてXの使用は低い院内死亡率と関連していた」とするような研究です。
- RECORD:RECORDがSTROBEのextension、すなわち拡張版です。近年電子カルテデータ(electronic health records)が自然と蓄積されるようになってきて、自然に集められたデータを用いた研究も多いです。そこでレジストリやコホートではなく、日常診療で自然に蓄積されたデータを用いる場合にはこちらのガイドラインを用います。
- TRIPOD:多くの初学者が取り組みやすいのが診断・予測モデルの研究です。多変量解析を用いてモデルを作成した場合はこのガイドラインを用いましょう。検査単体や特定の身体所見などのある特定の検査の診断性能を見たい場合は下記のSTARDを用います。また機械学習を用いた場合はTRIPOD-AIがあります。
- STARD:診断に関する研究で用いられるのですが、近年の多くの研究では診断モデルなどを用いる研究の方が多くみられるため、単体での診断・検査(インフルエンザの迅速検査や特定の身体所見)の研究を行うことはそう多くないと思います。
- CARE:症例報告を書く場合のガイドラインです。
他にもランダム化比較試験であればCONSORT、メタアナリシスであればPRISMAガイドラインなどがありますが、これらは本サイトの範囲外なので必要に応じて用いてください。
3. Study design and setting
基本的に最初の一行目はランダム化比較試験、記述研究、コホート研究などの研究デザインを書きます。Study designの判別は中々難しく、用いるデータベース・時系列経過・解析手法によります。大事なのは「どんなデータを用いて」「どのようなデザインで研究したのか」です。データベースを用いた解析でかつ、手法が明確でない時はretrospective studyやobservational studyと書くこともあります(ちゃんとデザイン名を書くのが理想なのですが…)。
This is a retrospective cohort study using data of ** hospital from January 1, 2015 through December 31, 2018
それからどのようなセッティングで行われたデータを用いたかを書きます。セッティングでは単施設か多施設か、大学病院か市中病院か、救急外来か入院なのか、などを詳細に述べます。単施設研究ならば市中病院か大学病院か、どれくらいの規模の病院か、年間症例数はどれくらいかなどを述べると具体性が増します。ここで意識すべきは一般化可能性(generalizability/transportability)であり、読者が「この施設での研究ならこうだろうな。だからこの結果は使えるだろうか?」とある程度考えられるような内容にしましょう。また専門施設であればどのような環境(ベッド数や専門医の数など)を記載することもあります。
The Kenkyu General Hospital is a tertiary care center that covers a population of approximately ** million with approximately ** annual ED visits.
またこの段落の最初あるいは最後に上記のreporting guidelinesに沿って論文を執筆したことを明記しておくと良いです。筆者はこの段落の最後に倫理委員会を通過してあることを記載することが多いですが、セクションを分けて記載する必要があるときはそちらに記載します。
This study followed the Transparent Reporting of a multivariable prediction model for Individual Prognosis or Diagnosis (TRIPOD) reporting statement for prognostic studies.
The study protocol was approved by the Ethics Committee of Kenkyu General Hospital and they waived informed consent as the nature of the retrospective design.
4. Study samples / participants / population
次に対象となった患者群を明記します。どのような患者が対象になったのか、組み入れ・除外基準とその定義を明記します。独自にcriteriaを決めるのではなく、できるだけガイドラインや過去の文献を参考にして丁寧に決める必要があります。ここが曖昧だと査読者にかなり指摘されるため、十分に根拠を持って決定し、論文の引用をしっかりつけておきましょう。
査読時に「なぜこの患者が対象になったのか?」「なぜこの患者が除外されたのか?」と聞かれた場合に、臨床視点と研究視点の両方から答えられるようでないといけません。特に疾患定義に関しては、その定義が一般的に受け入れられているかどうかも大事です(そうしないと都合のいい結果になるように患者を作為的に取捨選択した可能性が出てきますよね)。
また細かいのですが、target populationを意識している場合はstudy populationで良いのですが、実際には得られたデータに関する記載が中心なので筆者はstudy samples/participantsと書く方が多いです。また患者をincludeしたのか、データベースから同定(identify)したのかで使い分けたりします。
Study Samples
We identified all ED visits made by children (aged ≤18 years). We excluded visits that did not have information on triage classification level at the ED visit, were dead on ED arrival, left before being seen or against medical advice, or had data inconsistencies (i.e., systolic blood pressure >300 mmHg, diastolic blood pressure >200 mmHg, pulse rate >300/min, respiratory rate >80/min, oxygen saturation >100%). We focused on the 2007-2015 data based on the availability of vital sign information during these years. (Goto T et al. JAMA Netw Open 2019;2(1):e186937)
5. Data collection / Measurements
そのデータに含まれる変数はどのような変数があり、どの定義で、いつ誰が集めたかを明確にします。ここでデータの信頼性を強調することがとても大事です。 「Garbage in, garbage out」というように質の悪いデータからは質の悪い研究結果しか生まれません。全部書く必要はありませんが、どのような情報を収集しているデータベースかというのは参考になります。
注意点として、ここに記載するのはアウトカムではなく、あくまで一般的な「変数」です。 例えば、年齢、性別、体重、既往歴などの患者属性、あるいは社会的情報や検査・治療などです。多すぎる場合は簡潔にし、必要に応じて supplemental fileとして別ファイルを添付しましょう。ここで最も注意すべきは誤分類(misclassification)です。各変数の正確さや診断の正確さ、ICDコードを用いているならそのコードを用いることの妥当性裏付けながら提示していく必要があります。これは以降のexposure/predictor/outcomeでも同様です。
6. Exposures / Predictors
この部分は研究目的によって大きく異なります。介入や治療の効果を見たいのであればintervention, treatmentが用いられ、観察研究であればexposureになります。一方でリスク因子の研究であれば候補となるリスク因子(candidate risk factors)に、予測の研究であればcandidate predictorsになります。ちなみに記述研究の場合はこの項目自体がないことが多いです。
大事なのはこのexposureやpredictorsなどの定義が明確かつ科学的に妥当であること、そしてその効果が一定であることです(疫学の文脈で言うところのconsistency)。例えば「肥満」を暴露因子とする場合、 肥満の定義には様々な方法が考えられます。仮にBMIを用いる と決めたら、それはBMI 25 kg/m2以上でしょうか?それとも 30 kg/m2以上でしょうか?これらの定義も基本的に過去の論文を引用してそれに従うのが基本です。主要な医学雑誌で使われた定義を引用するなどして、自身の使用する暴露因子の科学的妥当性を強化しましょう。また、例えば「薬剤の投与」の効果を見たい時に患者によって投与量がバラバラでは正しく治療の効果を推定することができません。このように興味のある因子や治療の効果がある程度一意に定まるかどうかも検討しましょう。
Predictors
The predictors for machine learning models were chosen from routinely available data at ED triage using a priori knowledge. Specifically, the predictors included patient age, sex, mode of arrival (walk-in vs ambulance), vital signs (temperature, pulse rate, systolic and diastolic blood pressure, respiratory rate, and oxygen saturation), visit reasons, patient’s residence (home vs other [eg, long-term care facility]), ED visit in the preceding 72 hours, and patient comorbidities. (Goto T et al. JAMA Netw Open 2019;2(1):e186937)
Exposure
Bariatric surgery was defined by the Current Procedural Terminology codes for bariatric surgery (43.89, 44.31, 44.38, 44.39, 44.50, 44.68, 44.69, 44.93, 44.95, 44.99, 45.51, 45.90).
7. Outcomes
主要アウトカム(primary/main outcome)と、必要に応じて副次アウトカム(secondary outcome)を定義します。アウトカムは多すぎてはいけません。特に主要アウトカムは1個、多くても2個までが理想です。
組み入れ基準と同様に、アウトカムも過去の研究と同じ(または似ている)でないと知見の比較ができません。必ず引用を付けてアウトカムの定義づけをサポートしましょう。当たり前ですが、引用を用いたのであれば全く同じ定義でないといけません。「このガイドラインを参考にしてアウトカムを定義しました」と言いながら、勝手にmodifyしたものを用いてはダメです。その場合はどうmodifyしたのか明確にしましょう。常に「他の研究者が読んで再現できるか?」を意識してください。
また、アウトカムとエンドポイントの違いで悩む方もいるかもしれません。基本的には同じ意味で使われる事が多いですが、アウトカムの方がより「無難」でしょうか。アウトカムは研究対象に起こるイベント全てを指し(観察研究では色々なイベントがあるが、その中で対象とするもの)、エンドポイントはその中でターゲットにしたものあるいは観察を終了するイベントを指すという定義もあります。例えばランダム化比較試験などのように時間の経過が重要な場合は特にエンドポイントが用いられるように思います。従って、多くの初学者が行う観察研究ではアウトカムで良いのではないかと思います。
Outcomes
The main outcomes were 28-day and in-hospital mortality. The secondary outcomes were ICU-free days, ventilator-free days, and the type of discharge.
8. Statistical analysis
解析方法は研究目的・デザインと不可分ですが、大きく分けて次の事を書く必要があります。特に記述研究と推測統計の違いが明確でない例をよく目にします。この二つの違いが分からない場合、母集団とサンプルの関係性が分かっていない可能性があるため、自分の研究を一度見直してみるのがよいかもしれません。
- 研究対象集団にどのような特徴があるかを示す記述・要約統計
- 母集団における関連性を推測する推測統計
- 交絡因子を調整したならその因子と調整方法
- サブグループ解析、感度解析
- 有意差の定義
- 統計に用いたソフトとそのバージョン
1. 記述統計の部分はほぼ固定なので、似たような文章の使い回しの事が多いです。字数制限が厳しければ”summary statistics were used to describe patient characteristics”のように簡潔に書くか、全く書かないこともあります。
We described the patients’ characteristics using median and interquartile range (IQR) for continuous variables and number and percentage (%) for categorical variables.
2. 推測統計の部分に関しては多くの研究で回帰分析が用いられると思います。この時、どのモデルを用いたのか、アウトカムと調整因子について書く必要があります。特定の因子とアウトカムの関連を見る、あるいは治療・介入効果を見る場合はunadjusted, adjusted両方の結果を書く必要があります(意味が異なるので)。時々調整したモデルしか表示しない人もいますが、このような研究では両方示しましょう。
We fit unadjusted and adjusted logistic regression models using generalized estimating equations to account for patient clustering within hospitals to examine associations between obesity and each outcome, with normal and overweight as the reference category. In this primary analysis, hospital LOS was modeled as a binomial response (≤3 days vs. ≥4 days) based on the median LOS in the study population. (Goto T et al. Ann Am Thorac Soc. 2018 Feb;15(2):184-191)
3. 予測モデルの場合は既に記載してある予測因子を用いるので、用いたモデルを示せば十分です。
In the training set (70% random sample), we developed the reference and 4 machine learning models to predict the probability of 2 outcomes. First, as the reference model, we fit a logistic regression model including only the conventional triage classification data recorded in the database. (Goto T et al. JAMA Netw Open 2019;2(1):e186937)
4. 有意差の定義と統計に用いたソフトとそのバージョンもほとんど決まった形で書けば良いです。統計ソフトはソフト名、バージョン、会社名を明記します。
We considered 2-sided P < .05 to be statistically significant. All analyses were performed with R statistical software version 3.6.1 (R Foundation for Statistical Computing).
サブグループ解析・感度解析(sensitivity analysis)に関して
臨床研究では一つの解析だけを行ってメインの結果を出しておしまいではなく、様々な視点から解析を行います。これらの補足的な解析がサブグループ解析(subgroup analysis)や感度解析です。著者次第ですが、サブグループ解析が(広義の)感度解析に含まれる事もあります。
・サブグループ解析
サブグループ解析とは研究対象集団の中でも同じ特徴を持った集団を対象にした解析です。例えば男性、高齢者などです。サブグループ解析では年齢や男女など各サブグループで関連性や治療効果が異なるかどうかという異質性(heterogeneity)を評価します。治療効果がサブグループによって異なる場合は効果修飾(effect modification)があると言います。
介入効果の推定に関して、グループ間に統計学的な違いがあるかどうかを検討する場合、ただオッズ比などを比較するだけでなく、interaction termを入れるなどの対応が必要になることもあります。
・感度解析
一方、感度解析は観察研究における因果推論でほぼ必須です(介入研究でも用いられます)。感度解析では研究対象集団やアウトカムの定義の変更(例えば心筋梗塞という病名だけなのか、心筋梗塞の病名とカテーテル手技の組み合わせを用いたのかなど)、交絡への対処(回帰分析を用いたのか、傾向スコア分析を用いたのか)など、様々な条件を変えて解析を行い、結果に一貫性があるかどうかを確認します。前提条件や統計手法などを変えた様々な解析結果においても一貫した結果があれば、研究の結果の信頼性が高まるということになります(頑強・robustであると言います)。
とくにinclusion criteriaを厳しくする感度分析では、どうしても統計的パワーが減ります(nが減少するため)。その際には有意差(p値)にこだわる必要はそんなにありません。それよりもinferenceの方向が大事です。
9. ChatGPTなどの利用
近年は一つの大きなデータベースから複数論文を出すことが増えているため、Methodsのかなりの部分が過去の研究と重なることがあります。このような場合、ほとんど同じ文章でも問題ないのですが、いい感じに少し文章を変えてくれるのでChatGPTにお願いすることもあります。
上でも書きましたが、初学者にとってはSTROBEなどに即して何を書けばいいかリストしてくれるのはありがたいと思います。それこそ、リストされたものに対してそれぞれ自分の回答を日本語で打って「各項目に対する回答を追加したので、論文のMethodsとして翻訳して」とでもプロンプトを書けばMethodsはかなり書けてしまうでしょう。
何度も繰り返すように、勝手に「世の中に存在しない文献を引用する」「ない変数があることになっている」「よく見ると対象患者集団が異なっている」は起こりうるので、自分で確認することが大事です。