'ASRU' 태그의 글 목록

ASRU

[ASRU2015] Do deep nets really need to be deep? - Rich Caruana 2015.12.16

[ASRU2015] Do deep nets really need to be deep? - Rich Caruana

BbangG 2015. 12. 16. 02:27

2015. 12. 16. 02:27

ASRU 2015 keynote 정리

사실 어디까지 쓰고 어디까지 안 써야 하는 건지 모르겠다.

이거 막 저작권 침해 이런 거 되나?

Abstract 붙여넣고 싶은데... 왠지 어디 걸릴까 두려워서 못하겠다.

대신 링크: http://asru2015.com/InvitedKeynoteSpeakers.asp

How to train a Shallow NN to be as accurate as a state-of-the-art Deep NN/Conv NN

- Model compression

- Speed-up SNN learning via re-parameterization

- Ensembles of CNNs

1. Model compression

우선 TIMIT corpus에 대한 여러 machine learning technique들의 성능을 보고하며,

그것들의 ensemble이 가장 높은 성능을 기록.

근데 문제는 그 ensemble model이 엄청 커서... 오래 걸리고...

성능만 좋지 딱히 어디에 쓸 곳은 없는 단점!

(웹서치도 오래 걸리고, 위성에 달기에도 사이즈가 크고, 뭘 해도 오래 걸리니 뭐에도 쓸 수가 없다)

그래서 그 ensemble model을 teacher model로 두고,

shallow neural net model을 student model로 해서

그 teacher model을 따라하게 하는 것이 주된 얘기!

x-axis가 # of parameters, y-axis가 accuracy on TIMIT data set을 가지는 그래프를 보면,

로그 그래프 형식으로 (그니까 거울에 비춰진 ㄱ 자처럼) 성능이 보고된다.

parameter가 늘어날 수록 accuracy도 log-scale로 높아진다.

그리고 잘 보면,

원래 ShallowNet은 성능이 낮은 편이었는데,

성능이 아주 높은 Ensemble of CNNs를 따라한 결과!

ShallowMimicNet 저 하늘색 성능만큼 보고가 된다.

DeepNet보다 더 높은 성능.

So Why Does It Work?

Why can compression train small nets to mimic complex models when we couldn't train small nets on original data?

- no extra labeled data, but

- can make synthetic training set arbitrarily large so backprop doesn't overfit

- censors bad data (wrong labels)?

- censors hard-to-learn data?

- function is "learning friendly"

- was learned by another model

- does not depend on features no available as inputs

- soft targets easier to learn from without overfitting than hard 0/1 targets

- smooth, continuous decision boundary

- gives student valuable extra multitask information (Hinton's "Dark Knowledge")

왜 teacher model을 따라한 student model의 성능이 좋은지 분석한 페이지.

베껴씀....

아직 완벽하게 이해하진 못한 것 같아서... 흠...

2. Speed-up SNN learning via re-parameterization

3. Ensembles of CNNs

이건 사진 찍어둔 게 없는데.

굳이 기억을 더듬어 보자면

Convolution layer가 shallow net에 적어도 하나 이상 포함되어야 한다는 것이었다.

(Ensemble of CNN이 teacher model인 경우)

Convolution layer가 더 많을 수록 더 높은 성능이랬던 것 같고.

여기에 대해서 명확한 설명은 안 했던 것 같다.

그냥 그렇다고.

Speaker가 마지막으로 덧붙인 말.

"TIMIT에 대해선 그렇습니다. 다른 데이터는 확실히는 모르겠음. 데헷"

저작자표시 비영리 변경금지

PREV 이전 1 NEXT 다음

걸어가기

ASRU

[ASRU2015] Do deep nets really need to be deep? - Rich Caruana

+ Recent posts

티스토리툴바