Assessing GPT-4 for cell type annotation in single-cell RNA-seq analysis | Nature Methods

16/04/2024

Winnie09/GPTCelltype (github.com)

Assessing GPT-4 for cell type annotation in single-cell RNA-seq analysis | Nature Methods

Introduction

예시 – 면역세포또한 종류가 아주 많은 것을 볼 수 있다.

이를 유전자 발현으로 구분하려면 전문 지식이 필요하다.

예시 – 실제 본인 데이터(Unpublished)

Liu et al., BMC Cancer, 2023

말했다시피 굉장히 소모적이고 인간의 노 – 력이 필요하다.

현재 나와있는 자동 세포 종류 분류 툴들의 현황.

Results

이런 식으로 진행이 되었다.

“GPTCellType”

3가지 버전의 프롬프트 사용 (순정 GPT를 이용한 3가지 방법론 – 프롬프트 엔지니어링

1) Basic Prompt

2) Repeated prompt

그 세포 타입과 관계 없는 유전자들을 추가했을 때 성능이 낮아지더라 (하지만 비슷하긴 했다)
유전자를 많이 넣으면 넣을수록 성능이 좋아지더라.
Reproduce 도 잘 되더라.

Discussion

GPT-4의 훈련 데이터가 공개되지 않아 annotation 근거를 검증하기 어려움
사람의 개입으로 인해 모델 재현성과 큰 데이터셋에서의 확장성에 제한
단일세포RNA염기서열분석 데이터의 높은 노이즈 수준과 신뢰할 수 없는 차등 유전자로 인해 주석 품질 저하 가능성 (만약 GPT를 사용해서 많은 사람이 이용하게 된다면)
하위 분석에 앞서 전문가가 GPT-4의 세포 유형 annotation을 검증할 것을 권장
고품질 기준 마커 유전자 목록으로 GPT-4를 미세조정하면 세포 유형 주석 성능이 더 향상될 수 있음

Project: singleCeLLM

GPT-4의 훈련 데이터가 공개되지 않아 annotation 근거를 검증하기 어려움
사람의 개입으로 인해 모델 재현성과 큰 데이터셋에서의 확장성에 제한

– 공개된 모델로 fine-tune 어떤지 ? (Mistral?)

단일세포RNA염기서열분석 데이터의 높은 노이즈 수준과 신뢰할 수 없는 차등 유전자로 인해 주석 품질 저하 가능성 (만약 GPT를 사용해서 많은 사람이 이용하게 된다면)
하위 분석에 앞서 전문가가 GPT-4의 세포 유형 annotation을 검증할 것을 권장
고품질 기준 마커 유전자 목록으로 GPT-4를 미세조정하면 세포 유형 주석 성능이 더 향상될 수 있음

– 빡세게 문헌조사

답글 남기기 응답 취소