ASRU 2015 keynote 정리
사실 어디까지 쓰고 어디까지 안 써야 하는 건지 모르겠다.
이거 막 저작권 침해 이런 거 되나?
Abstract 붙여넣고 싶은데... 왠지 어디 걸릴까 두려워서 못하겠다.
대신 링크: http://asru2015.com/InvitedKeynoteSpeakers.asp
How to train a Shallow NN to be as accurate as a state-of-the-art Deep NN/Conv NN
- Model compression
- Speed-up SNN learning via re-parameterization
- Ensembles of CNNs
1. Model compression
우선 TIMIT corpus에 대한 여러 machine learning technique들의 성능을 보고하며,
그것들의 ensemble이 가장 높은 성능을 기록.
근데 문제는 그 ensemble model이 엄청 커서... 오래 걸리고...
성능만 좋지 딱히 어디에 쓸 곳은 없는 단점!
(웹서치도 오래 걸리고, 위성에 달기에도 사이즈가 크고, 뭘 해도 오래 걸리니 뭐에도 쓸 수가 없다)
그래서 그 ensemble model을 teacher model로 두고,
shallow neural net model을 student model로 해서
그 teacher model을 따라하게 하는 것이 주된 얘기!
x-axis가 # of parameters, y-axis가 accuracy on TIMIT data set을 가지는 그래프를 보면,
로그 그래프 형식으로 (그니까 거울에 비춰진 ㄱ 자처럼) 성능이 보고된다.
parameter가 늘어날 수록 accuracy도 log-scale로 높아진다.
그리고 잘 보면,
원래 ShallowNet은 성능이 낮은 편이었는데,
성능이 아주 높은 Ensemble of CNNs를 따라한 결과!
ShallowMimicNet 저 하늘색 성능만큼 보고가 된다.
DeepNet보다 더 높은 성능.
So Why Does It Work?
Why can compression train small nets to mimic complex models when we couldn't train small nets on original data?
- no extra labeled data, but
- can make synthetic training set arbitrarily large so backprop doesn't overfit
- censors bad data (wrong labels)?
- censors hard-to-learn data?
- function is "learning friendly"
- was learned by another model
- does not depend on features no available as inputs
- soft targets easier to learn from without overfitting than hard 0/1 targets
- smooth, continuous decision boundary
- gives student valuable extra multitask information (Hinton's "Dark Knowledge")
왜 teacher model을 따라한 student model의 성능이 좋은지 분석한 페이지.
베껴씀....
아직 완벽하게 이해하진 못한 것 같아서... 흠...
2. Speed-up SNN learning via re-parameterization
3. Ensembles of CNNs
이건 사진 찍어둔 게 없는데.
굳이 기억을 더듬어 보자면
Convolution layer가 shallow net에 적어도 하나 이상 포함되어야 한다는 것이었다.
(Ensemble of CNN이 teacher model인 경우)
Convolution layer가 더 많을 수록 더 높은 성능이랬던 것 같고.
여기에 대해서 명확한 설명은 안 했던 것 같다.
그냥 그렇다고.
Speaker가 마지막으로 덧붙인 말.
"TIMIT에 대해선 그렇습니다. 다른 데이터는 확실히는 모르겠음. 데헷"