이 연구는 건강한 성인을 대상으로 4주 동안 웨어러블 기기를 통해 심박변이도(Heart Rate Variability, HRV)와 수면 일지를 지속적으로 수집한 실세계(real-world) 데이터셋을 구축하고 공개한 내용입니다. 이 데이터셋은 심리 상태(우울, 불안, 불면 등)와 일상 신체활동, 수면 패턴을 다층적으로 분석할 수 있어, 향후 웨어러블 기반 헬스케어와 인공지능 분석 연구의 소중한 자원으로 활용될 전망입니다.
1. 연구의 배경과 목적
최근 웨어러블 디바이스는 혈압, 신진대사, 수면 등 건강 상태를 일상적으로 모니터링하는 도구로 크게 주목받고 있습니다. 특히, 손목 착용형 기기는 외상 후 스트레스 증상이나 혈압의 지속적 관찰뿐 아니라, 정신건강 모니터링(우울, 불안 평가 등)에도 적합하다는 연구 결과가 잇따르고 있죠.
"웨어러블 기기로 추적 가능한 수면 시간과 규칙성은, 자가보고된 기분 및 우울 점수와 강한 연관성이 있습니다."
— 논문 참고문헌 4번 인용
심박변이도(HRV)는 자율신경계의 균형을 반영하는 생체 지표로 웨어러블 기기에서 주로 추출됩니다. 특히 불면이나 우울증이 있는 사람은 보통 밤에 심장 박동이 충분히 느려지지 않고, HRV도 낮게 나타나 뇌심혈관 위험과 연관될 수 있음이 확인됐습니다.
기존 HRV 연구는 임상 환경(병원)에서 일시적으로 측정(5분~24시간)하는 방식이 많아서, 실제 일상생활 변동성을 세밀히 추적하는 데 한계가 있었습니다. 본 연구팀은 실제 환경(in-situ)에서 장기간 HRV와 수면 일지, 심리 설문을 동반 기록한 공공 데이터셋을 구축·공개하며, 다양한 분야 연구자들을 위한 폭넓은 분석 기반을 제공하는 것이 핵심 목표임을 밝혔습니다.
2. 데이터 수집 설계 및 과정
본 연구는 21~43세 남녀 49명을 모집해 4주 동안 삼성 갤럭시 워치 액티브2를 착용하도록 했습니다. 연구 초반, 중간, 종료 시 임상설문(불면증, 우울, 불안)도 함께 실시했습니다.
"참여자는 비우세손목에 스마트워치를 착용하여 활동 중 심박, 움직임, 환경 센서 데이터를 수집하고, 취침·입면·기상·야간 각성 시간 등을 일일 수면 일지로 기록했습니다. 임상 설문은 2주 간격 세 번 진행되었습니다."

주요 수집 내용 및 방법
- 웨어러블 앱(Heart+) 제작: 가속도계, 자이로스코프 등 움직임, 심박·PPG 등 생리, 주변광 환경 데이터를 0.1초(10Hz)마다 수집
- 수면 일지: 취침/입면/기상/WASO(야간 각성시간) 등 매일 작성
- 임상 설문: ISI(불면), PHQ-9(우울), GAD-7(불안) 등 3회 실시
- 데이터 저장·전송: Wi-Fi 연결 시마다 서버로 전송, 개별 파일로 관리
- 참여자 모니터링: 매일 데이터 누락 점검·경고, 채팅방·메신저로 소통 및 공지
"스마트워치를 3회 이상 또는 하루 2시간 이상 착용하지 않으면 개별 경고를 보냈습니다."
참여자(데모그래픽 및 생활습관)
- 49명, 평균 연령 21~43세, 남녀 비슷하게 구성(여성 25명)
- 직장인(35%), 학부생(30%), 대학원생(35%)
- 대부분 금연, 음주 주 1회 이하, 규칙적 생활
- 운동·카페인 흡수 빈도 균등 분포

- 임상 설문 전후 점수: 불면(ISI), 우울(PHQ9), 불안(GAD7) 점수 변화 추이 확인

3. 데이터셋 구성과 처리
데이터셋은 아래와 같이 다양한 형태의 정보가 체계적으로 기록·관리됩니다.
- 참여자 프로필 및 생활습관(survey.csv)
- 스마트워치 센서 데이터(sensor_hrv.csv, sensor_hrv_filtered.csv)
- 5분 단위로 가공, 결측률·잡음점수로 필터링된 버전 포함
- 수면 일지 데이터(sleep_diary.csv)
- 자기 보고형 데이터 + 각종 정량화 수면 지표(수면효율 등)
- 원시 센서 데이터(raw_data/폴더 내 PPG, 심박, 가속도 등)
- 임상 설문 점수
- README 문서로 변수 설명
"총 33,600시간 데이터가 수집되어 1인당 평균 672시간에 달합니다."
데이터 전처리 시 센서 기준 범위를 벗어난 값은 제거, 신체에 착용하지 않은 구간은 자동·수동으로 필터링, 수면 일지 오류(AM/PM 등)은 연구진이 직접 점검·수정했습니다.
4. 데이터셋 유효성 검증
A. 전체 데이터 동향 및 신뢰성
- 데이터 포인트의 시간 분포를 보면, 일과 시간(09:00~23:00)에 데이터가 가장 촘촘히 수집됨

- 신체활동(걸음수, 심박수) 평균은 점심·저녁 시간에 증가해 일상적인 패턴을 확인할 수 있음

- 개개인의 일별 활동 및 심박 데이터도 비교 가능
- 예) 같은 사용자의 활발했던 날(최소~최대 심박 50~150bpm)과, 정적인 날(50~100bpm)

- 센서-심박변이도(HRV) 특성 간 상관관계
- 시간 영역 HRV 지표끼리 강한 양의 상관, LF/HF 등은 음의 상관

B. HRV 특징의 분포와 트렌드
- 직업군·성별별 HRV(예: SDNN, LF/HF) 분포
- 학부생이 사무직보다 SDNN(변이도) 더 높음 → 나이가 많을수록 HRV 감소하는 기존 연구와 일치
- 여성의 HRV 크기는 대체로 낮음 → 선행 대규모 메타분석과 일치

"SDNN 구간은 기존 연구와 일치하며, LF/HF 평균값도 최근 장기간 측정치와 유사한 범위에 있습니다."
- 측정 방식(실제 환경, PPG vs. 병원 ECG 등)에 따라 값 차이가 있지만, 표준적 범위 내에 들어감
C. 수면 일지 신뢰성
- 본 연구의 자기 보고 취침/기상 시간 등 주요 수면 지표는 기존 연구(웨어러블/수면밴드 활용)들과 학술적으로 유사하거나 그보다 약간 이른 경향
5. 활용 방안 및 한계
데이터셋의 잠재적 활용 예시
- 정신건강 예측 모델링:
- 장기간 연속 센서+설문 데이터 기반, 불면증/우울/불안 등 예측 연구에 활용
- 심박변이도·활동·수면 등 다변수 조합한 인공지능 예측 가능
- 수면 연구:
- 군집 분석(clustering) 등으로 특정 수면 패턴 그룹 도출, 생활습관/HRV 차이 평가
- 일상생활 기반 HRV 변화 연구
- 일 주기, 직업군, 성별, 연령 그룹별 HRV 변화량 등 심층적 분석 지원
데이터셋의 한계
- 센서 신호 노이즈: 착용 습관 차이로 인한 노이즈, 비착용 시간대 발생 가능성
- 데이터 일부 결측 있음: 예) 비착용·충전 등으로 누락 구간 존재, 추가 보간·정제 필요
- 기억 기반 수면 일지: 자기 보고 특성상 주관적 오차(기억 오류 등) 포함 가능성
- 인구집단의 제한: 주로 젊은 대학/연구소 구성, 일부 직업/연령대·한국 중심
- HRV 계산 편의·알고리즘 편향: HeartPy 활용 시 일부 방식·파라미터/알고리즘별 값 차이 발생 가능
"PPG 신호의 품질에 따라 일부 5분 구간에서 HRV 값이 누락될 수 있습니다. 다른 알고리즘(예: pyPPG, NeuroKit2 등)을 사용하면 결과가 달라질 수 있습니다."
6. 코드 및 데이터셋 접근 안내
- 전체 데이터셋 무료 공개:
- https://doi.org/10.6084/m9.figshare.28509740 (Figshare)
- HRV 추출 Python 코드:
- 연구팀 연락: 본문 'Corresponding authors' 참고
마무리
이번 공개 데이터셋은 실제 생활환경에서 장기간 관찰한 심박변이도(심리·신체 건강 평가) 및 수면 습관 데이터로, 누구나 자유롭게 활용할 수 있습니다. 웨어러블 기반 맞춤 건강관리, 인공지능 정신건강 분석, 수면과 신체활동 간 상관 연구 등 폭넓은 헬스케어/생체신호 AI 연구 분야의 새로운 지평을 열 것으로 기대됩니다.
본 데이터셋은 건강한 삶과 정신건강 회복을 위한 과학적, 실증적 기반 자료로 적극적인 활용과 추가 연구가 권장됩니다! 😊