캐글에 새로운 대회가 열려서 참가신청을 했다.
'이온 스위칭'이라는 이름인데, 고등학교 때 어깨너머로 배운 생명과학2가 생각이 났다. 흥분의 전도 배울 때, 나트륨 통로, 칼륨 통로, 나트륨 칼륨 펌프 이렇게 배웠던 것 같다. 큰 도움은 되지 않지만, 약간의 domain knowledge를 기억해내자면,
세포 내부는 기본적으로 약한 음전하를 띄고, 세포 외부는 양전하를 가지고 있는 상태이다. 이때의 전위차를 휴지 전위 라고 한다. 이때 세포에 자극이 주어졌을 때, 세포막에 있는 통로가 열리면서 세포 외부의 양전하를 띄는 이온들이 세포 내부로 들어오게 되면서 세포 내부의 전하가 + 가 된다. 이때 + 전하의 값을 활동 전위, 이 활동 전위가 나타나는 현상을 탈분극이라고 한다.
깜짝 놀란 세포는 다시 휴지전위로 돌아가고자 들어왔던 양이온들을 다시 내보낸다. 이를 재분극이라고 한다. 이때 일시적으로 휴지 전위보다 전하량이 더 낮아지는 과정이 있는데, 이런 현상을 과분극이라고 한다. 하지만 곧 보통의 휴지 전위 상태로 돌아온다.
데이터를 받아보면 'time, signal, open_channels' 딱 3개의 변수만 주어져있다. 이중 open_channels 가 우리가 예측해야할 타겟 변수이다. time 은 말 그대로 시간이고, 총 10개의 실험데이터가 1개 실험당 50초, 0.001초 단위로 나누어져 있다. 총 데이터 행 수는 5000000행이다. time 데이터는 순서대로 0.001초 단위로 주어지지만, 각 10개의 실험은 독립적으로 실행된 것이라고 주최측은 밝힌 바 있다. signal 은 이 0.001초 단위로 기록된 세포의 전위 상태를 의미하고, open_channels는 그때 측정된 열려있는 이온 통로의 갯수이다. 아무래도 signal의 값이 커질수록 세포가 더 강한? 많은? 자극을 받았다는 의미이고, 더 많은 이온 통로가 열려서 양이온들이 많이 세포로 들어갔기 때문에 이런 값이 관측되었을 것이다. 다만, 막상 시각화를 해 보면 아주 정확하게 딱딱 나눠지지는 않는다.
측정 공식은 'F1-macro' 방식이다.
일단 현재 랭킹은 768팀 중에 411등이다. 역시 사람들 개 잘한다. LightGBM을 쓰는 사람도 있고 CNN, U-Net 다른 딥러닝 모델들도 쓰이고 있... 는 것 같다. 한번 열심히 해봐야지.