YouTube Video — Transcript

손실 함수와 라스 함수의 개념, MSE, MA, 휴버라스, BC 손실 함수 및 로봇 공학에서의 응용을 다룬 대학원 수준 강의입니다.

Key Takeaways

  • 손실 함수는 모델 예측과 실제 값의 차이를 수치화하여 최적화 방향을 결정한다.
  • MSE는 미분 가능해 딥러닝에 적합하지만 이상치에 민감하며, MA는 이상치에 강건하나 미분 불가로 딥러닝 적용이 어렵다.
  • 휴버라스는 MSE와 MA의 장점을 결합해 이상치에 강건하면서도 딥러닝에 적합한 손실 함수이다.
  • 크로스 엔트로피(BC)는 이진 및 다중 분류에서 중요한 손실 함수이며, 수치적 불안정성을 BC with 라스로 개선한다.
  • 로봇 공학과 컴퓨터 비전 분야에서 휴버라스와 다양한 손실 함수 기법들이 활발히 활용되고 있다.

Summary

  • 손실 함수의 기본 개념과 모델 예측 오류 측정 방법 설명
  • MSE(평균 제곱 오차)와 MA(평균 절대 오차)의 장단점 비교 및 이상치 민감도 분석
  • MSE와 MA의 장점을 결합한 휴버라스 손실 함수 소개 및 로봇 공학에서의 중요성 강조
  • 크로스 엔트로피(BC) 손실 함수와 시그모이드 함수의 차이점 및 수치적 불안정성 문제 설명
  • BC with 라스 기법을 통한 수치 불안정성 해결 방법과 컴퓨터 비전 분야 응용
  • 라벨 스무딩, 웨이티드 크로스 엔트로피, 포컬라스 등 클래스 불균형 해결 전략 소개
  • 손실 함수가 최적화 알고리즘에서 방향 설정과 모델 튜닝에 미치는 영향 설명
  • 딥러닝에서 미분 가능성의 중요성과 MSE의 미분 가능성 강조
  • 이상치에 강건한 MA의 특성과 해석적 장점, 그리고 딥러닝 적용 한계 설명
  • 미국과 한국의 문화 차이를 비유로 들어 예측 실패에 대한 페널티 개념 설명

Full Transcript — Download SRT & Markdown

39:06
Speaker A
자, 여러분 안녕하십니까? 예, 안녕하세요. 예, 오늘은 그 비용 함수 라스 설계인데 오늘 저번에 말씀드릴 좀 중요해요. 어, 여기에 이제 BC 라스 같은 경우 그래서 오늘 좀 열심히 들어 주셨으면 감사하겠습니다.
39:29
Speaker A
자, 오늘 좀 내용 보도 딱 많죠. 어 우리가 이제 코스 펑션 또는 라스 펑션이라고 요즘에는 그냥 다 라스로 그냥 통일하는 거 같아요. 이제 혼용에 쓰지 않고. 근데 이 5차를 어떻게 측정할 건가? 방향을 어떻게 갈 것인가? 학습 방향을.
39:47
Speaker A
그리고 우리가 이제 이거 한번 했기 때문에 반단히 넘어갈 것 같은데 스케어드 에러하고 에러 그렇죠? MSE와 MA의 특성하고 이상치 민감도에 대해서 좀 하고 결론적으로 말하면요 두 개를 장점을 결합한 게 바로 휴버라스예요. 그래서 휴버라스는 제가 이 과정을 어 강의하면서 이제 어 처음으로 강의한 거죠. 왜냐면은 아
40:18
Speaker A
휴버라스는 그전에는 이제 일반적인 대학원에서는 그렇게 많이 어 쓰진 않아요. 근데 이제 어 몇 군데서데 이제 로봇 쪽 로봇 공학에서는 중요한 거 같습니다. 어 실제로 그래서 저도 이제 대학원 다시 어 작년에 갔을 때 이걸 처음 봤어요. 논문에서.
40:38
Speaker A
그래서 이 두 개를 장점을 결합하고 요즘에 다 이거 쓰고 있어요. 로봇 쪽에선. 그래서 알고 계셔야 되고 그 유브리의 특수한 분야 있으니까 그 유브리의 특수한 분야 있으니까 그다음에 이 분류는 크로스로피 BC 어 원리를 꼭 꼭 기억하셔야 돼요. 근데 이제 이걸 하면 그다음에 이제 크로스
41:03
Speaker A
엔트로피가 이제 대부분이거든요. 다중 분류가 대부분이라서 어 크로스 엔트로피는 들어 보셨을까요? 굉장히 중요한 어 내용이니까 꼭 기억하시고 블루 때 한 번 더 나와요.
41:17
Speaker A
그다음에 시그모이드 자체가 좀 수치적인 불안정이 좀 있습니다. 어 그래서 그걸 BC의 수치 불안성을 해결하기 위해서 나온 게 BC with 라스고 이것도 이제 어 컴퓨터 비전에서 저희 교재에서 이제 강조해서 나오는 내용이에요. 어 이제 일반적으로 그냥 BC로 끝내는 경우가 대부분인데 어 이제 사실은 이게 가장
41:44
Speaker A
업그레이드된 모델이다 이렇게 생각하시면 되고 그다 말하지만 크로스 엔트로피가 중요하죠. 그다음에 모델이라는 이제 파트가 있는데 그걸 와드만 하기 위해서 라벨 스무딩이라고 하는데 이제 컴퓨터 비전에서 중요한 것 중에 하나입니다.
42:02
Speaker A
이걸 또 쓰고 있어요. 어디서 로에서. 아 그래서 클래스 불균형 해결 전략을 보면 웨이티드 크로스 엔트로피와 포컬라스라고 했는데 이 포컬라스도 정말 중요합니다. 어디? 로봇 쪽에서.
42:18
Speaker A
그래서 그래서 그다음에 이제 라스피스라는 개념하고 그다음에 안정적 그 학습을 위한 라스피스 생성인데 우리 교재를 조금 초과하는 내용들이요 두 개가 추가 나온다 이렇게 좀 아시면 되겠어요. 어차피 어 응용 시간에 이제요 내용들이 조금 나오기 때문에 거기서 그냥 로에서 여러 가지 방식
42:39
Speaker A
중에 하나 그니까 로가 버전마다 새로운 기법들을 채용을 했거든요. 어, 두 세 개 정도를 사용했는데 거기에 나오는 내용들의 기초적인 내용들을 미리 빼 가지고 공부한다.
42:52
Speaker A
어, 기초 이론만 그렇게 생각하시면 되겠습니다. 그래서 오늘 내용이 어, 약간 대학원 수준이에요. 어, 그러니까 조금 집중해서 들으셔야 돼요.
43:02
Speaker A
자 우리가 손실 함수라는 뭐냐면 기본적인 개념은 우리가 알다시피 손실이라는 건 자체의 정의는 우리가 어떤 모델이 예측한 것과 실제 정답과의 차이 그게 우리가 라스 즉 손실이었고 그 손실 함수는 요거죠.
43:22
Speaker A
요걸 수치화하는 거예요. 그래서 당연히 손실은 적을수록 좋죠. 어, 그러니까 이 값이 작을수록 모델이 정확하게 예측하고 있다. 이런 의미죠.
43:35
Speaker A
주요 목적은 모델의 오류가 5초가 얼마나 많은가 그다음에 방향을 결정해 주죠. 어, 이만큼 이쪽으로 이렇게 웨이트를 줘 가지고 이쪽 방향으로 갔더니 잘못 갔네. 어, 이만큼 수정이 있구나. 그래서 이쪽 방향으로 가야 되겠구나. 방향을 설정해 줘요.
43:52
Speaker A
그래서 결국 최적화 알고리즘의 가이드입니다. 시험 생각하시면 돼요. 여러분이 시험 하는데 약간 어 다른 건 다 맞았는데 어떤 특수 과목에서 한 절반밖에 못 맞았어. 그러면 다음에 만약 시험이 떨어졌으면 그 과목을 집중적으로 공부할 거 아니에요. 그러나랑 똑같아요. 우리가 정답과 실제 점
44:16
Speaker A
정답과 내가 여러분이 썼던 답안은 결국 예측 모델이죠. 요게 차이가 크면 클수록 점수가 낮아지는 거죠.
44:25
Speaker A
손실함수는 예측과 정답과의 차이가 크면 큰 값을 늘어납니다. 그니까 낮은 판이라고 하는 거예요. 감소하는 방향으로 우리가 가정치를 조정한다. 튜닝한다. 이제 이것을 미세 조정이라는 말이 영어로 파인 튜닝, 튜닝이에요. 그 파인 튜닝. 어 그래서 그 말을 많이 듣게 돼요.
44:51
Speaker A
자 우리 MSE부터 할까요? 다 아는 내용이지만 이제는 어 실제 나베리에 있는 값이죠. 그리고 우리가 예측 모델이 예측한 값이에요. 요 차이가 라스죠. 이 라스를 제곱해서 각각의 포인트에 있는 걸 다 더해서 그러면 n개고요. n개를 다 더하고 n으로 나눈 게 미인 스피어요.
45:15
Speaker A
자 얘를 들어 볼까요? 실제 이렇게 세 가지가 정리 실제값인데 모델이 12, 19, 35예요. 이 차이가 있으면 어떻게 빼냐에 따라서 여기는 여기서 여기서 빼면 -2고 여기서 빼면 1이고 -5잖아요. 아, 이것 때문에 이제 우리가 플러스 마이너스 존재하니까 어, 제곱을 하는 거죠. 크기만데
45:40
Speaker A
그냥 우리 5차라 그러면 2, 1, 5지만 제곱을 하기 때문에 4, 1, 25가 돼요. 얘를 다 더한 다음에 세 개를 관측한 게 세 개니까 n개 3으로 나면 10이 되죠.
45:55
Speaker A
장점은 수학에 그냥 공식에 집어넣으면 되니까 나중에 이 공식만 집어넣으면 우리가 저걸 함수를 만들잖아요. MSE 리턴요 공식 그러면 끝이죠.
46:10
Speaker A
수학적으로 다루기 쉬워요. 그냥 감만 넣으면 그냥 요거 세 개만 그냥 입력값 인풋 떠으면 끝이니까 미분이 가능하죠. 제곱했으니까 빠른 헬스 속도예요.
46:24
Speaker A
요게 큰 거죠. 자, 여러분 항상 여기다 적으세요. 딥러닝이 가능하려면 뭐예요? 미분. 미분이 하면 미분이 가능하다는 건 딥러닝이 가능하다는 뜻이.
46:38
Speaker A
예. 그게 키워드예요. 어, 미분이 안 되면 딥러닝이 안 돼요. 역전파가 안 되기 때문에. 단점 이건 모든 평균에 평균을 가지고 여러분 보면 무슨 평균 뭐 어 미인이 들어가는 모델들이 있어요. 가 지병이 있어요.
47:08
Speaker A
이상치 민감해요. 아 이게 가장 큰 큰 장 단점이에요. 그래서 그걸 보완하기 위한 노력들을 해요. 그러니까 저번에도 말했지만 이 평화은 170, 180cm에 사고 있는 우리 평범한 어 족들, 평범족들이 살고 있는데 갑자기 거인족인 사자분이 오는 순간 근데 이제 그게 우리가 여러 명이
47:35
Speaker A
있으니까 평균에 큰 손상이 없죠. N으로 나눌 때 그데 저하고 서자원하고 딱 같아서 버리는 순간 제 키는 간 적도 없는 185, 190 이렇게 가는 거야.
47:49
Speaker A
평균이 확 뛰어 버리죠. 2로 나누니까 바로 그게 가장 큰 문제. 그래서 MA는 평균 절대 우차죠.
48:02
Speaker A
절댓값 앱솔루트라고 해요. 얘는 그냥 조금만 치면 되죠. 그러면 우리 크기만 보는 거니까 마이너스값이 존재하지 않잖아요. 그러니까 그대로 2로 그대로 외우자. 이게 현실적으로 더 맞죠. 솔직히. 그렇죠.
48:17
Speaker A
어, 있는 그대로 차이. 그렇지만 그래서 4 더해서 3 나누면 2.67이에요. 차이가 다섯 배 가까이 차죠.
48:32
Speaker A
근데 여기서 의미가 있어요. 왜냐면 얘이 상체 당연히 덜 미는 거 맞죠. 절댓값이 계산하니 이거 누가 봐도 좋네요.
48:43
Speaker A
미분이 안 돼요. 미분이 안 되니까 딥닝이 안 돼요. 그 일반적인 통계에 보조 지표로만 쓸 수밖에 없는 거예요.
48:54
Speaker A
무슨 말인지 아시죠? 어 여러분 그런 경우 있잖아요. 중고등학교 때 정말 그 제 친구도 포기한 적이 있는데 키가 172여 가지고 정말 농구 잘했거든요. 172인데 점프해 가지고 서전트 최대 준비했던 애 서전 174였구나.
49:16
Speaker A
어 173이었구나. 서전트 점프가 워낙 좋아서 워낙 좋아 가지고 덩크가 돼요. 이제 이런 덩크는 안 되고 이렇게 손 한 손으로 173짜리 농구 농구 선수가 꿈이었어요.
49:32
Speaker A
어렸을 때부터 태권도 해 가지고 이게 공 늘 때 날라차게 하면서 저 공을 넣어요. 어 그랬는데 꿈을 포기했죠. 키가 너무 작으니까 너무 선수하기에는 무슨 말인지 그건 같은 애예요. 얘가 짜나 애예요. 그렇죠. 여기 다부터 MA 보면은 마음이 아파야 돼.
49:58
Speaker A
알았죠? 와. 아, 이 짜해. 그죠? 어 짜단해요. 어, MA는 근데 얘 딱 봐도 좋잖아요. 이 성치가 덜 미는가 봐.
50:17
Speaker A
그러면 왜 MS를 많이 쓰냐? 우리가 모든 통계에서는 어떻게 보면 이게 미국 스타일이죠. 여기가 정확하게 말하면 유럽 스타일인 거예요. 아, 서양분들은 이게 딱 뭐냐?
50:33
Speaker A
결국은 내가 예측 실패를 하면 페널티를 엄청 주죠. 이게 어메리카 스타일이에요. 문화가 그래요. 그래. 어 직장 또 그래요. 제가 말씀드렸지. 제가 상황 말 안 했나?
50:54
Speaker A
그 미국에서 직장 다닐 때 그까 교통사고 났어요. 아 제가 이제 그냥 뒤에서 살짝 박았죠. 출근하는 길에. 전화로 이제 통보하잖아요. 늦을 거 같다고.
51:10
Speaker A
그러면은 당연히 말은 고맙게 해죠. 다친 데 없나? 아 고맙더라고요. 그거는 갔어요. 아 하 이거 보험회사 블로그 해야 되니까 한 30분 내렸죠. 바로 아 다행히 회사 근처에서 나와 가지고 어 근데 딱 한 마디 해요. 아 그래도 미리 통보했으니까 어 벌점 5점
51:35
Speaker A
벌점 20점 잘려요. 깔끔하죠? 음. 그죠? 어, 규칙은 규칙이니까 무단으로 제 동료 한 명은 바로 그 자리 잘렸어요. 왜냐? 전날 클럽 가 가지고 술 진탕 먹고 전화를 했으면 되는데 두 명이 전화를 했거든요. 둘 다 친구였는데 놀러 갔나 봐. 금요일 날. 토요일 날
52:04
Speaker A
출근해야 되는데 아침 출근인데 안 왔어요. 그래 전화를 한 애는 전화를 했어요. 자, 몸이 너무 아파서 못 가겠다고.
52:12
Speaker A
그데 당일날 전화했잖아요. 걸정 쉽죠? 한 명은 안 했어요. 음. 바로 회고통보다 했지. 어, 그 차이예요. 그러니까 어, 우리나라처럼 30분 늦었다고. 어, 심할 썼어. 아니면은 잘못했습니다.
52:32
Speaker A
사과하러 다녀. 우리나라 오니까 원 문화가 다르죠. 어, 그런 거 없어요. 깔끔해요. 그죠? 결국이 제가 왜 이런 말 한 줄 아세요? 이 앞으로 지금 나오는 모든 것들이 그래요. 네가 널 믿게 항상 어 미국 회사 나중에 여러분 좋잖아요. 외국 회사 좋아요. 좋은데 책임이
52:55
Speaker A
무거워요. 너 하고 싶은 대로 해. 대신 실수하면 알지 이거예요. 그렇죠? 어허. 아주 깔끔해요. 뭐예요?
53:06
Speaker A
페널티를 확 주죠. 예측 실패는 곧 죽음이다. 이런 목숨 몰고 하라고 이시켜요. 어 실제로 그러니까 지금 모든 이제 앞으로 나오는 오늘 보면 손실 함수는 예측 실패는 엄청난 페널티를 주게끔 설계를 해 놨어요. 다 알겠죠? 일단 그렇게만 생각하시면 돼요. 알겠죠?
53:32
Speaker A
어. 자, MA는 이상치에 민감하지 않으니까 차를 동등하게 포잖아요. 틀린 걸 5차 난 걸 있는 그대로 틀린 걸 틀렸다고 그대로 반영하죠.
53:51
Speaker A
그러니까 그런 걸 영어로는 로버스트, 로버스티니스 그래 가지고 우리가 아는 로봇이 여기서 나오는 거예요. 강건한 단어 있죠. 로버스티니스, 로봇 왜냐면 튼튼하잖아요.
54:07
Speaker A
모든 원차를 동등하게 취급해요. 그 이상 안 봤습니다. 그냥 평균적으로 2.67만큼 틀렸어. 그냥 그대로 해석이 되죠. 이거예요.
54:19
Speaker A
제가 그때 그림잖아. 이게 v점 모양이잖아요. 왜? 그럴 수밖에 없죠. 마이너스 없잖아요. y값이 다 양수만 나 뱉으니까. 그렇죠?
54:30
Speaker A
V인데 이 끝에서 뭐가 문제예요? 미분이 안 돼요. 그니까 최적화를 못 하기 때문에 그래요. 그래서 이상치가 많은 데이터 이걸 써요. 해석 가능이 중요하고 공정한 평가를 할 때 MA를 써요.
54:51
Speaker A
그래서 요거 두 개의 장점을 한 개 공식을 좀 다 써 드릴게요. 저쪽에서 강의하면 다시 보충하면서 MSE와 MA를 절충한 휴버라스. 여러분들은 이건 반드시 하세요. 코드 좀 있다 보겠지만 간단해. 그냥 휴버라스 바로 치고 옵션 넣으면 돼.
55:14
Speaker A
써야겠죠? 뭐냐면요 두 개의 장점을 결합한 거예요. 휴버라스는 여러분이 따로 찾지 않으면 없어요. 다른 교재들 컴퓨터 비전 교재요 로봇 쪽과 관련된 거 제가 컴퓨터 비전 책들을 어차피 여러분 기존에도 봤지만 새로 여러분 그 작년에 강의 들어오기 전에 당연히 강의 준비를 3개월 전에 통보
55:40
Speaker A
받았으니까 책도 받았고 시중 책도 다시 받겠죠. 왜? 그 사이에 6개월 동안 새로운 게 나오니까. 어 시기수 공부를 좀 하면서 저희도 그때 창 프로젝트였고 그러니까 적용할 게 있나 봤죠.
55:55
Speaker A
그때요 큐보라스를 소개한 책이 딱 한 권 있어요. 시중에 잭슨 나노에다가 이제 이식하는 거. 어 그렇죠. 사문 인터넷 관련된 컴퓨터 비전 좀 응용 프로그램이 있는 책에만 요게 소개가 되더라고요. 제 말 무슨 말인지 아시겠죠 여러분?
56:17
Speaker A
근데 별거 아니에요. 개념은 이거거든요. 자, 큰 5차가 나는 거는 MA처럼 왜냐면 이 자체가 MSE 자체가 5차에 엄청나게 페널티를 주는데 아까 10이었잖아요. 근데 제곱을 하면 아무리 페널티를 줘도 한번 좀 심수했다고 100을 줘 버리면 안 되죠. 제곱을 해 버리면 10만큼 5차가 났어. 근데 제곱해
56:44
Speaker A
버리면 100이잖아요, 페널티가. 어, 그러니까 그때는 5차가 너무 크잖아요. 그때는 MA 그냥 10 그대로 반영하고 작은 5차에는 제곱을 시켜 버리는 거예요. 무슨 말인지 알겠죠? 1, 2는 1 아니면 4 제곱하 2만큼 났는데 4 이런 식으로 하는 거예요. 그걸 하는 게 좀 더
57:10
Speaker A
공식 보 그 식 써 드릴게요. 외울 필요 없으니까 이해만 하면 됩니다. 델타값 그거 이제 한마디로 경계값이라고 해요. 그 이제 여러분이 설정해 주는 거야.
57:25
Speaker A
그걸 기준으로 두
57:54
Speaker A
16 돼 버리잖아요. 단위가 틀려져 버리니까. 아, 내가 한 3 보통 1 2 3이 정도 했을까?
58:04
Speaker A
어, 그래서 그 정도 내가 만약에 3으로 했어. 근데 2 났어. 아, 그럼 그냥 MSE 가.
58:12
Speaker A
왜? 일단 이게 빨라. 그리고 이게 원래 정통이니까. 근데 내가 지금 3으로 설정했는데 얘가 10 나와.
58:22
Speaker A
그 100돼 버리잖아요. 제곱해 버리면. 그러면 너무 외국된 거죠. 아, 그렇죠. 5차가 얼마 났어요? 실제로 10 났는데 100대려 버리는 거예요. 그렇죠? 어, 그래 이상치에 강건으로 MA를 해요.
58:38
Speaker A
그래서 균형을 맞추는 거야. 그래서 가장 그냥 디폴트는 뭐냐? 1이에요. 1보다 작은 뭐 0.5는 제곱하고 1보다 큰 2, 3, 4만 놔도 그냥 MA로 가는 형식으로.
58:53
Speaker A
그래서 M 0.5는 MS 2면 MA에 가깝다. 이해되시죠? 어렵지 않죠? 뭐 그냥 간단해.이 개념만 이해하시면 돼요. 아, 기준.
59:06
Speaker A
델타라는 기준. 그래서 이게 비교표인데 그냥 요거 이제 사실은 요게 이제 실제로 요즘에이 휴버라스를 개선하는게 로그이거든요.
59:25
Speaker A
근데 이제 이런 것들은 어 실무 코드에서나 좀 몇 번 나오고 어 메이퍼하고 로커시는 이제 원래 많이 썼던게 휴보는 우리 쪽에서 이제 나오는 거고요 세 개였어요.
59:43
Speaker A
그러면 메이프는 뭐냐면 이게 퍼센티지예요. 대분율로 비율로 나타내는음 그래서 이상치 민감도를 보면 MSE는 아주 높아요.
59:57
Speaker A
MA는 낮고요.요 두 개를 한 개 중간 정도가 해 버렸어요. 그가 항상 중간을 간다. 중간 같네요. 다 수렴 속도는 조금 느려요. 왜냐면 델타값을 기준이니까 기준을 보고 우리가 맞는지 확인해야 되니까.
60:23
Speaker A
그다음에 조건이 걸려 버리니까 얘는 원래 느리고 얘는 빨라요. 해석은 높죠. ma죠. 얘는 중간적으로 그래서 이제 일반적인 회기는 다 MA를 써요. MSE를 쓰고 이상치가 많고 해석이 중요하면 MA를 쓰는데 여기 써 있죠. 뭐라고요? 로봇 엔지니어링.
60:53
Speaker A
휴보라스는 로봇 공학의 특화됐어. 진짜음 비유로차 중요하고요. 비유로차가 중요할 때 자 이제 정말 눈 뜨셔야 돼요. 조고 계시면 안 돼. 이제 BC 이게 클래스 구분하는 손실하면요.
61:17
Speaker A
여러분이 BC하고 시그모이드하고 많이 헷갈리하세요. 그냥 다 그런 건 아니지만 일반화 시켜 드릴게요. 어. 이진 분류할 때 우리가 시그모이드 배웠잖아요. 시그모이드하고 BC하고 다 이진 분류라 그러는데 뭐예요?
61:35
Speaker A
BCE는요 손실함수 까먹지 마세요. 손실 함수 무슨 함수야? 손실 함수. 시그모이드은 활성화 함수 아니에요? 활성화 함수를 안 써요. 활성화 함수로 옛날 썼어요. 근데 그것 때문에 딥러닝이 망했어요. 알았죠?
62:00
Speaker A
시그모이드를 활성화 함수로 쓴다. 그 말은 딥이 망하라는 뜻이야. 그 전에 그것 때문에 망했거든요. 제가 그 이후도 설명했죠. 미분하면 어떻게 돼요? 가운데가 어떻게 돼요?
62:23
Speaker A
최댓값이 1/이었잖아요. 보여줬잖아요. 1인데 은익층을 통과할 때마다 곱하기잖아요. 4의 n승으로 감수 그죠? 커지니까 무한대분의 1이 돼서 0 돼 버려요. 기울기가 무슨 말인지 아시겠죠?
62:46
Speaker A
그렇지? 그래서 시그모이드는 어디서 쓰는 거냐면 마지막 판단하는 어디 출력에 쓰는 거야. 1이냐 0이냐. 마지막 확률값으로 저게 개야 늑대야. 아 개의 확률이 0.7이야. 아 70% 1이구만. 개구만. 이해됐어요?
63:10
Speaker A
어 그래서 확실히 구분하셔야 돼요. 얘 손실야. 알겠죠? 아 손실성. 그리고 시험에서 잘 많이 나오는 것 중에 하나. 아까 말한 은닉층에 쓰는 건 뭔줄 아세요? 그게 바로 렐루예요.
63:33
Speaker A
알겠죠? 리키 렐루. 렐루는 은닉층에서 왜? 그걸 개선한 거잖아. 시그모이드가 죽는 걸 개선하기 위해서 나온게 렐루다. 그게 활성함수야.
63:46
Speaker A
알겠죠? 왜 어제도 질문 이쁘게 하셨잖아요. 선형 yx가 얘 기준이 세 개 어떻게 보면 기준이 세 개잖아요.
63:58
Speaker A
x가 0보다 작을 때 다 0배고 0일 때 거기는 0이긴 하지만 꺾이죠. 그렇죠? 꺾이죠. 그러니까 그 꺾이는 순간에 우리가 이렇게 각진 거이 선인데 우리도 저 이거 선으로 저희 얼굴 그린다 그러면 이렇게 선 하나 긋고 이렇게 긋고 그림 그리시는 분 이렇게
64:29
Speaker A
긋고 그러잖아요. 그렇죠? 그러니까 그런 식으로 이제 표현이 가능하시는 거야. 두 개의 클래스를 구분하는 손실함수다.
64:46
Speaker A
BC는 뭐라고요? 이거 치세요. 쳐 보셔야 돼. 이게 시험이 나오는 적 있어요. 옛날 주관식으로 빅데이터 분석 기사에 다 시그모드 썼었어요. 제가 이걸 냈거든요.
65:08
Speaker A
대학원에서 1 틀렸어요. 다 시그모드 썼어. 무슨 말인지 알겠죠? 어 기술 면접이 어려운게 나오는게 아니에요.
65:19
Speaker A
이런 거 나와요. 가장 단순한 거. 무슨 말인지 알 수 있어? 어. 자, 여기 지금 저희가 다중 분류를 할 건데. 어, 그러니까 예를 들어서 이제 두 개만 했으니까 두 개의 클래스를 구분해야 되는 손실 함수는 뭐죠?
65:38
Speaker A
남들이 다 시그모드를 할 때 여러분을 BC라고 할 줄 알아요. 어, 기술 면접은 그런 간단한 건 문제죠. 여러분 면접 시간이 3분밖에 없는데 기본적으로는 한 사람에게 주어진게 평균적으로 그렇지 않겠어요? 보통 면접 보신 분들 알겠지만 세 명 정도 들어가고 그러잖아요. 많이 들어가 뭐
66:04
Speaker A
많이 들어가면 보통 많이 들어가면 세 명이고 이제 적게 들어가면 두 명 아니면 단독으로 하는 경우도 있지만 보통 어 1차 면접 때는 이제 대기업 같은 경우는 1차 면접 때문에 세 명 들어가는게 보통이에요.
66:20
Speaker A
한 사람 다 선분 줘요. 그 사람들도 너도 이제 심사위만 해 봤거든요. 아 죽겠어. 화장실 갈 때 화장실 두 시간에 한번 갔나 그랬을까?
66:32
Speaker A
어 진짜로 왜냐면은 좀만 쉬면 쉬려고 그러면 계속 밀리잖아요. 심사 시간에 대해서 인원이 많으니까 심사들 그리고 요즘에 심사 어떻게 하는 줄 아세요? 어 저도 이제 요즘에 안 가서 모르겠는데 3년 전에 한참 갔어요. 초빙 돼서.
66:54
Speaker A
어 저도 이제 홍보 목적이었죠. 그때 막 개발사 이제 하고 홍보하고 다니니까 예 산업형단 교수를 했단 말이야.
67:02
Speaker A
링크 사업단에 세종대에서 그때 링크 플러스 사업다니까 그거 하고 있어서 그러니까 거기서도 모양세가 좋잖아요. 어쨌든 개발사를 갖고 있는 사람이 어 강사로 와서 하고 있고 어 그러니까 거기 스타트업 하는 데가 있어요.
67:19
Speaker A
세종대 그 청년 취업 창업 뭐 뭐 그런 거 거기 그 그런 걸 뭐라 그러더나 그 아 그 이제가 갑자기 생각하면 봤어요. 창업 보육 센터. 어, 사업 보육 센터 그렇죠. 이제 창업자들. 어, 취업 사원학교는 그건 서울시에서 하는 그 이런 프로그램이고 그 돈 창업한
67:47
Speaker A
창업자들 위한 그런 센터가 있어요. 학교랑 같이 산악 협력 그런 거죠. 그래서 그거 할 때 심사 많이 했거든요. 그러면이 컴퓨터 노트북 한 장씩 줘요.
68:01
Speaker A
자동으로. 어, 마지막에 글을 때 이제 거기에 출력해 가지고 사인하고 거기다 이제 개별 의견 같은 거 적으실 거면은 전체 의견만 적지. 일일이 안 합니다. 어떻게 하냐? 뭐 종이로 하는 건 옛날 얘기예요. 컴퓨터로 이렇게 다 있어요. 그러면은 다 3점으로 먼저
68:21
Speaker A
만들어 놓고 이렇게 질문 한 명씩 하고 마우스를 막 옮겨요. 그러면 나중에 이제 합격하거나 이제 한 친구들한테 물어보잖아요. 아 그 면접장에서 그 마구스가 움직이는 거 있죠. 세 명이 심사연 세 명이 움직이는 거. 그 소리가 너무 긴장되고 뭔 말인지 알죠?
68:44
Speaker A
3점에 우리도 사람이니까 빨리 체점을 해야 될 거 아니에요. 그것도 한 번에 세 명을 채점하니까.
68:51
Speaker A
그러니까 3점에다가 저 사람이 질문하는 거 보고 그러니까 이게 약간 저도 해 보니까 이게 여러분이 잘못하면 말릴 수도 있어요. 이쪽에서 질문했는데 여러분 접변을 못 했잖아요. 그럼여 저도 아무 생각 없다가 원래 5점 주려고 했다가 2점 주고 이렇게 돼요. 저쪽에서 질문하는데 어
69:13
Speaker A
내가 봐도 저거 중요한 질문인데 왜 답변을 못 하지? 그니까 중조용 효과라고 해요. 심리고 똑같이 이정 죽더라고. 그럼 떨어지는 거지.
69:24
Speaker A
어 그래서 그거 나중에 면접할 때도 그 시츄에이션 그래서 팀 프로젝트 발표를 해 보시는 걸 진짜 강추해요.
69:34
Speaker A
1대 1이면 강하신 분들이 있는데 단체로 면접 보면은 말리시는 분들이 있어요. 어 그거 그러니까 한 사람 질문을 제대로 답변 못 하면 세 명이 다 낮은 점수 주게 돼 있어요. 그 그 분위기가 그렇게 되더라고. 어 제가 심사위원 입장에서 말씀드렸어요.
69:57
Speaker A
그래서 이게 뭐예요? 두 개의 클래스를 구분하게 소수야. 영어이면 1이잖아요. 클래스 두 개. 그럼 모델이 예측한 확률과 실제 레블의 차이를 측정하겠죠. 공식이 이거예요. 잘 보시면 봐요. 요게 하나가 증가되면 하나가 감소하는 걸 되겠어요. y 로그 프로티죠. 1 - y. y + 1 -
70:23
Speaker A
y는 1이잖아요. 그니까 확률적으로 보이는 거예요. 로그 1 - p죠. 얘가 프트가 30%면 얘 70%는 거야. 이런 걸 판별식이라고 하거든요. 서로 왔다 갔다. 일부러 이렇게 하나가 증가되면 하나가 감소하는 자, 생각해 보세요.
70:40
Speaker A
여기다가 0 넣어 보세요. 0과 1 사이잖아요. 자, 얘 0 넣잖아요. 자, 일부러 이렇게 만들어 놓은 거예요. 좀 있다가도 뭐 다시 한번 적어 드리겠지만 요거는 외우지 않더라도 눈으로 이해를 하셔야 되니까.
70:57
Speaker A
정답이 0이라고 해요. 0이면 얘 날아가죠. 얘만 남죠. 무슨 말인지 알겠죠? 맞죠? 자, 만약 정답이 1이었어요. 실제 레블이 1이라는 거야. 1이면 얘 남고 얘 날아가요. 무슨 말인지 알죠?
71:18
Speaker A
어 그래서 얘는 뭐냐면 확률로 나타나게 만들어요. 근데 로그 취했어요. 로그 나오면 마이너스 값이 나와요.
71:29
Speaker A
그래서 앞에 마이너스 있는 거야. 알았어요? 어, 좀 있다가 어, 수식으로 이제 한번 풀어 주면 여러분이 이해도 될 거예요. 그래서 요거 굉장히 유명한 식이에요.
71:43
Speaker A
대학원을 가게 되면 일단 지금은 뭐 그게 아니니까 나중에 대학원을 가면 이게 나와요. 외우자 외워야 될 수도 있어요. 어, 그때는. 근데 지금은 외울 필요는 없고 이해를 하셔요. 그 이식이 정말 많이 보여요. 한별식이이 부료할 때. 자, 그래서 꼭 기억하세요. 그 이건 프로빌리티니까
72:08
Speaker A
확률이죠. 0까지. 자, 그래서 여기도 나오지만 정답이 1일 때 1이잖아요. 날아가죠. 로그 p잖아요. 그 손실이 0.10이고 0.693이고 2.63이고 2.33이죠. 잘 보세요. 예측 확률이 90%면 되게 작죠. 손실이 예측 확률이 0.1이면 손실을 크게 잡아요. 이게 뭔 뜻이냐면 자 내가 이거예요.
72:40
Speaker A
여러분들이 누구에게 페널티해 줄 거니까. 그러니까 우리나라는 그니까 이제 항상 그러잖아요. 여러분들도 지금 오늘 저도 지금 아 어떻게 할까 고민하고 있는데 지금 저 삼성 요조 파업할 때 저거 저 보면은 항상 공정성이 뭐냐 이런 거 갖고 하는데 제가 봐도 지지를 못도 없게
73:04
Speaker A
생겼어요. 왜냐면 여러분이 공 그게 이제 공산주의가 망한 것 중에 하나도 하요. 공정이라는게 뭐냐? 무조건 다 N빵이냐?
73:16
Speaker A
그렇죠? 다 동등하게 N을 줄 거냐? 그러면 누구는 열심히 아, 일할 사람이 하나도 없죠. 그렇죠? 열심히 일하는 사람이 없겠죠. 다 동일하게 어 애들이 그게 실제로 복지 국가에서도 많이 일어난다고요.
73:35
Speaker A
저는 그걸 봤어요. 그가 뭐냐면 목적이 있고 할드만 가더라고요. 제가 핀란드를 갔는데 핀란드가 잘 살죠. 우리나라 인구에 10분밖에 안 돼요. 핀란대에서 이제 MBA를 했는데 어 해싱큐라고 하는 데서 했는데 거기서 보니까 어 거기 거기는 그나마 좀 나아요.
74:00
Speaker A
근데 이제 옆나라 스웨덴 노르웨 여러분 다 아는데 발칸 거죠. 잘 사는 데서 어 걔들 보니까 그러니까 너무 세금이 세니까 일을 열심히 안 해.
74:15
Speaker A
세금이 40%예요. 그고 거기는 교통 벗규나 이런 거를 지킬 수밖에 없어. 여러분이 이제 교통 위반 딱지가 100만 원에 넘어요. 내가 이제 사고리에서 신호 위반해 가지고 만약 빨간 부리데 건다 그러면은 우리나라 돈으로 그 당시가 그 당시도 2 제가 11년에 졸업했으니까
74:40
Speaker A
어 20 200만 원인가 나도 한 번 그러니까 그냥 돈으로 그냥 그렇죠. 아이 너 괜찮아. 그래 어 그러면 200만 원 대신 무의자 해 줘요. 아름다운 나눠지. 그렇죠. 그 그니까 세금을 엄청 떼니까 어 그지 어떻게 보면 그게 공평한가 이런 생각도 들긴 하는데 어떻게 보면
75:10
Speaker A
어 그 빈부차는 좀 적죠. 근데 또 하나 근데 문제는 청년들이 자살율로 봐. 그리고 마약 많이해요.
75:20
Speaker A
아, 왜 그런가 했더니 일을 안 해도 200만 원. 그래서 그냥 놀고 있어. 그러니까 내가 해 가지고 어디 괜찮은데 취업하지 않을 거면 그렇죠. 괜찮은데 취업하면 그 당시 지금은 더 하겠죠. 그 당시 한 4 4천만 원 정도인가? 우리나라도 연봉이 4,500이 그 당시에.
75:43
Speaker A
어, 그게 이제 기본적으로 근데 중소 기업이랑 대기업이랑 별로 큰 차이 없어요. 큰 기업도 없고 이제 그런 식일 큰 기업에 해봤자 노키아였는데 노키아가 이제 망했잖아요. 어, 거의 어, 그러면서 이제 스타트업 천국이 됐죠. 어, 근데 경쟁력은 되게 있는 거 같아요. 그래서 장단점은 있어요.
76:07
Speaker A
그런 것처럼 무조건 엠빵이 아니라 그 공정성 논리를 하는 거잖아. 그 일한 만큼의 어느 정도는 보장하고 어느 정도 우리가 생각하는 그런 거잖아요. 내가 일한 만큼에 대해서 어느 정도의 보상이 적정하게 그렇게 원하잖아요.
76:27
Speaker A
이게 근원리가 들어가 있어요. 자, 봐요. 어떤 사람이 자,이 너 우리 그 현빈이었나요? 당신 이거 확신하십니까?
76:39
Speaker A
이렇게 하는 사람이 옛날 드라마서 몰라요. 제가 인재 님한테 자 이게 지금 회사 생활이라고 할게요. 자 인재님 진용님 승현님 이렇게 할게요. 아 시크릿드 예 거기 거기 나오지 않나요? 당신 자 이거 하라고 여러분들이 이제 뭐가 프로젝트하는 우리 다 하나의 팀이어서 뭐 해요? 그 제가
77:04
Speaker A
물어봐요. 성현님이랑 인재님이랑 지한테. 자, 이렇게 예니까. 자, 선생님 지금 이거 이렇게 주장하셨는데 그렇게 될 거라고 얼마나 예측치잖아요.
77:18
Speaker A
어차피 주장하셨어요. 이거 해야 됩니다. 그죠? 얼마나 확실하십니까? 그랬더니 저 90% 확실합니다. 알겠죠? 예를 들어서 그래. 임재 님한테 물어봤더니 좀 쭈비쭈비 하면서 그런 거 같은데요. 이제 이런 거야.
77:38
Speaker A
근데 왜 주장해요? 그렇게 생각 말할 거 아니에요. 근데 이제 그렇게 말을 안 했고 확신도 근데 확실하지도 않으면서 예측 이거야. 이거라고 주장했어요.
77:51
Speaker A
틀렸죠? 패널티를 크게 주겠다는 뜻이야. 무슨 말인지 아시겠어요? 요게이 공식이 그 담긴 거예요. 어메리칸 스타일의 그 서적인 그 생각이 알겠죠? 네가 90%를 아 어차피 틀릴 수가 있다고요. 틀릴 수 있죠. 당연히 예측하니까 우리 생각해 보세요.
78:16
Speaker A
1기에 뭐 기상청이죠? 기산청에서 자 오늘 비올 확률 우산 저도 갖고 왔는데 오늘 비올 확률이 80%입니다.
78:30
Speaker A
만약에 틀렸어. 그러면 기상청 있는 사람들 구속시켜야 돼요. 어떻게 틀릴 수가 있어? 기상청이. 어 그러면서 저희들 다 잘라 그래야 돼요?
78:42
Speaker A
아니죠. 비난은 받을 수 있겠죠. 좀 잘 좀 맞춰라 그러면서. 실제로 통계는 어떻게 하냐면 예측 모델이잖아요. 그러니까 통계학자들이 옛날부터 뭘 만들었냐면 거기 통계학 책이 나와요.
79:02
Speaker A
자기 자기는 신이 아니다. 그니까 책임을 피할 수 있는 걸 만들어 놔요. 바로 미국 스타일이죠.
79:10
Speaker A
어 외국사 뭐냐면 여러분이 추정이라고 하면 두 가지 추정이 있어요. 점 추정이 있고 구간 추정이라. 자 뭐냐면 그거죠. 자 여러분이 곧 6월 3일 날 선과하잖아요. 그러면 선과하고 딱 나오시면 앞에서 사전 그거 막 예측 못대 하면서 우리의 순태 쫙 2026년 이렇게 방송 나올 거야.
79:37
Speaker A
그죠? 그죠? 자. 여기 여기 완전 다 팔아버리네요. 막 그러면서 예, 지금 랠리가 들어가고 있습니다. 막 이런 식으로 방송하잖아요. 지금 선거 방송도 그때 그 사람들이 투표 결과가 또 안 나왔는데 인터뷰 갖고 사전 투표 결과 지금 누가 당선이 우선시되고 있습니다. 막 이렇게 하고
79:56
Speaker A
있잖아요. 그게 왜 그러냐? 자,이 사람이 될 확률이 당선 확실 95% 플러스 마이너스 5차 범위 플러스 마 3% 맞아요.
80:10
Speaker A
자, 95플 - 3% 여기에 엄청난 살아남는 두목을 만들어 놓은 거예요. 통계약자들. 95%라고 하는 건 우리를 뭐라고?
80:23
Speaker A
점추정이라고 해. 플러스 마이너스 3%를 구간 추정이라. 근데 잘 보세요. 95 + 3은 얼마죠? 98.
80:36
Speaker A
95 - 3은 얼마예요? 90. 여러분 92하고 98하고 같아요. 물론 6% 차이를 만들어 놓은 거예요.
80:48
Speaker A
무슨 말인지 알겠죠? 어, 거기에 왜 그러냐? 옛날에는 아주 극단적인 사람들이 많았죠. 계급 사회에서는 독재 정권 생각하십니다.
81:03
Speaker A
옛날에 옛날에 아시잖아요. 중세시대나. 근데 끼득하면은 돌맞았죠. 진짜 돌 맞을 수 있어요. 통계학자들 내가 이거라고 주적했는데 틀렸잖아요. 그 사람들이 다 너 이리 와 그래 가지고 알죠?
81:19
Speaker A
돌로 쳐 죽였잖아요. 그러니까 이제 살 돌마저 죽기 시켜 안해서 만든게 구간 추정이라고 통약책이 있어요. 그죠? 통약책이 어 우리가 우리는 신이 아니다. 대신 수학에 힘을 비어서 이거고 이건 확률값이다.
81:37
Speaker A
무슨 말인지 알겠죠? 그래서 플러스 마이너스 얼마 그래서 만든게 구간 주죠. 그런데 그러니까 대신 네가 틀릴 수 있지만 네가 확실을 갖고 예측했냐? 그러면 틀린 건 인정하게 손실 적게 잡아. 넌 확실하지도 않은데 추정했잖아. 주는 거야.
81:57
Speaker A
페널티. 무슨 말인지 아시겠어요? 어이 말이 굉장히 많이 나와요. 확신도와. 정답을 확신할수록 낮은 손실 틀린 답이 틀렸는데 네가 확신해 손실 이게 공정하지 않겠어요?
82:20
Speaker A
이렇게 보는 거예요. 이게 이제 공정의 의미인 거예요. 공정한 보상하는데 네가 열심히 어떤 걸 준비하고 열심히 해서 실패할 수 있어. 그때는 페널티 섞여 줄게. 대신 네가 아무것도 준비도 안 하고 뭐 하면서 이렇게 주장해 가지고 뭔가 일을 그르쳤어.
82:40
Speaker A
엄청난 패널처 죽겠어.이 뜻이에요. 어 이게 그 처학의 사이야.이 확신도를 여기에 내포하고 있다고요.이 공식이 예. 확률값으로 나와요. 무슨 말인지 알겠지? 확률값이 요게 계산이 이해되시죠? 음.이 써 있잖아요. 정답은 실제 정답은 0과 1인데 여기에 들어가는 값이 뭐예요? 프리ity티잖아요.
83:20
Speaker A
확률이니까. 이해되셨어? 그러니까 예측 확률이 되는 거야. 어, 그 회원님도 이해하신 거 같아. 그래서 수치 안정성이라는게 중요하다 이거야.
83:32
Speaker A
P가 0, p가 1일 수 있죠. 어 아니 그게 진짜 생길 가능성이 빵일 수도 있고 무조건 생길 수도 있잖아요. 1. 그렇죠? 어 그러니까 이게 0 들어가고 1 들어가면 어떤 문제가면 로그 계산 자체가이 이제이 로그의 이제 단점인 거죠.
83:51
Speaker A
그래서 실무에서는 이런 아주 0 이게 뭐예요? 0.0 0 1 1이 언제? 0점 0이 일곱 개의 다음에 1이 나온다는 거잖아요. 0.001 아주 미세한 값을 더해 줘요.
84:09
Speaker A
왜? 0이나 그죠? 어, 제로 디비전하고 똑같아요. 0이 안 나오게 하기 위해서 이게 무한대로 막 가니까 계산. 왜냐면 그레디언트가 폭발해요.
84:22
Speaker A
여기가 계산량이 폭발한다고. 자 그래서 실제 요걸 해 본 겁니다. 계산해 보시면 P잖아요. 0.9요. 그러면 -로그가 나와요. 0.9.이 확률값이죠. 그러면은 0.105예요.
84:42
Speaker A
왜냐면 요거 하면은 -0.105가 될 거예요. 그래서 마이너스 붙인 거예요. 그러면 0.15. 그다음에 0.5는 넣으시면 -0 6 로그값이기 때문에 -0.693이 나오거요. -서 0.3 계산해 보면 여기 큰 손실이 나게끔 만들어 놓은 거야.
85:05
Speaker A
알겠죠? 음. 예측 확률이 낮으면 큰 손실이 나 그 실제 0일 때 이거는 1 2 코드죠. 어 그때도 똑같이 그래서 얘가 아까 아침에처럼 뭐가 문제였냐면이 BC를 개선하는 모델인데 요것 때문에 뭐라 그래? 시그모이드 시그모이드를 활성한 다음에 BC를 딱 적용했더니 어떤게 나오냐면 극단적인
85:48
Speaker A
0과 1에서 수치환정이 발생한게 생겼어요. 항상 뭐든지 문제가 생기면 해결해야죠. 그래서 얘를 내부적으로 통합시켜 버립니다. 시그모이드와 BC를 그래서 로그섬 익스포넨셜이라는 왜냐면 저번에 말했죠. 로그 y는 x 기억나시죠? 거기 대칭인게 이스포넨 지수 함수하고 y는 x에 대해 대칭이잖아요. 그니까 로그를 한 다음에 더해서 익스포네이션 하는 이런
86:19
Speaker A
트릭으로요 두 개를 겹쳐요. 내부적으로. 그래서 요걸 이제 나중에 같이 보여 드릴 거예요. 모이다가 PC 원래 따로따로 코드를 친 거랑 요거랑 해요. 그래서 효율적으로 계산하.
86:39
Speaker A
자. 뭐냐면은 이거거든요. 코드 보시면 모델에다 어떤 x값 넣어서 예측치죠. 아웃풋. 그런 다음에 시그모이드를 통과시켜서 프로리티 뭐냐면은 시그모이드는 퍼센티죠. 0과 1일사이니까 가동치에의 프로빌리티가 나와요.
86:59
Speaker A
그런 다음에 그 가중치 뭐냐면 어떤 값이 나오는 노지라는 어떤 특정 값이 나오는데 그 값을 확률값으로 바꿔 주는 거죠.
87:10
Speaker A
그래서 그 확률값과 값하고 BC를 하게 되면 수치불이 나와요. 그래서 어떻게냐? 얘로 바꿨을 갖고 했더니이 내부에서는 요런 식으로 도는 거예요. 시그모이드와 BC 요거를 한 번에 가는 거죠. 이렇게 해도 사시면 되는데 수치 불안정하게 나올 경우가 있어요.
87:36
Speaker A
그래서 요거 두 개를 합친 거예. 코드면 한 조리에 끝나는 거죠. 그래서 근데 이제 뭐냐면 모델의 출력의 시그모드를 사용하면 안 된다.
87:48
Speaker A
여기서 여기서 BC 라직스라스가 내부적 모든 처리를 해 준다 이거예요. 자, 크로스 엔트로피 왔는데요. 세 개 이상의 크래스 블레이 자 이거는 이제 제일 많이 쓰는 거죠. 크로스 엔트로피가 다중류입니다. 다중물.
88:09
Speaker A
요것도 소프트맥스가 내장돼 있어요. 어 파이토치에서는. 자, 이게 시 뭐냐면 로짓이란 말 내가 그때 외우라고 했죠. 뭐예요?
88:19
Speaker A
로지. 로짓. 로지스 뭐예요? 확률 방식이요? 음. 비슷하긴 한데. 원래 이게 뭐였죠? 그죠? 세균님 하셨어요.
88:37
Speaker A
자, 세균님 1점 드릴게요. 예. 우리가 모델 이거예요. 이게 로지스예요. 어떤 값을 입력가를 넣어서 모델이 통과돼 가지고 예측한 값이잖아요.
88:53
Speaker A
그걸 로짓이라고 제가 한다고 그랬잖아요. 그 이렇게 나온다고요. 용어기 때문에 포드기 자체가. 그러면 실제 모델이 출력한 예측값이 2.0 1.0 0.1이에요.
89:06
Speaker A
이해되시죠? 세 개니까 값들이 나온 거예요. 이해되시죠? 예를 들어서 개 고양이 g냐 분류 문제라고 생각하시면 돼요.
89:18
Speaker A
어, 이렇게 값이 나왔어요. 얘를 확률값으로 바꿔 주는 거죠. 소프트맥스 통해서 이러면의 확률이니까 다 더하면 1이죠.
89:27
Speaker A
즉 개가 될 확률이 66% 20 뭐 고양이 24% g 20% 여기까지 이해되시죠? 확률값으로 바꿔 주는 거예요. 자, 이거 왜 강조하냐면 이게 나중에 트랜스포머 특히 어텐션이라는게 있어요. 거기서요 방식 그대로 취하거든요.
89:50
Speaker A
확률로 바꿔 줄 때. 어, 그래서 잘 아셔야 돼요. 소프트맥스라는 방법으로 써요. 요거를 로그를 채요. 그러면은 마이너스 값이 나와요. 그렇죠? 로그 1은 0이잖아요. 그러니까 마이너스 나오네. 0.66이니까.
90:15
Speaker A
그래서 -에서 한다는 거야. 알았죠? 소스 엔트로피에 보시면은 예측값은 항상 우리가 이제 항상 토치는요. 그러니까 이거를 토치를 가르치면 기존에 있던 강사님들도 처음에 막 해갈 하세요. 여러번 똑같아요.
90:44
Speaker A
왜냐면 케라스로 배울 때는 이제 배치는 배치 사이즈 따로 이제 명시를 해가지고 그냥 넣어 주면 지금 알아서 계산 모델이 되니까 이렇게 집어넣어야 되니까 처음에 헷갈리거든요.
90:57
Speaker A
요거거든요. 예측은 배칙개 클래스수요로 로직이에요. 그 정답은이 배치 형태로 입력을 해요. 왜? 아래 알아서 해 주거든요. 그냥 알아서 100개 그렇게 하면 돼요. 클래스가 원래 세 개. 이게 워더 코딩이 필요 없다는게 뭐냐면 원래 만약 개 고양이지면 워다 코딩 우리 배웠잖아요.
91:25
Speaker A
개 해당하면 1 아니면 0이면 0 1 0 이해되시죠? 이런 식으로 나타나면 트루 크거든요. 1이 1 하니까 뭐 어려운게 아니라 이거 개야. 개 고양의 g가 있어.이 개야. 트루. 응.
91:45
Speaker A
아니야. 아니야. 폴스 폴스. 그걸 이제 1 이렇게 한다 그랬잖아요. 그렇죠? 그러니까 원래 그렇게 워더인 코딩을 해 줘야 되는데 얘는 안 해도 돼요. 클래스 어디에 들어가는 클래스인자 얘는 0번이야. 얘는 1번이야. 얘는 2번이야. 이것만 해 주면 되지.
92:07
Speaker A
얘는 개야. 얘는 고양이야. 얘 g야. 그것만 주면 된다.이 뜻이야. 인덱스만. 왜?이 이 크로스 엔터 할 때 이게 파이 토치 특징인데 파이 토치가 그게 만들어 놨어요. 그렇게 하라고 문법이에요. 그러니까 실제로 나온게 아까 2.0 1.0 0.1 됐잖아요.
92:29
Speaker A
이건 값이에요. 실제 텐서값 이값이 이렇게 나왔는데 그냥 0번. 예. 얘 타겟에서 0번입니다. 그러면 얘 맞잖아요. 크로스 엔트로피의이 H와 그냥 집어넣으면 돼요. 타기해서 집어넣으면 돼.
92:54
Speaker A
다음이 이제 라벨 스무딩이에요. 이건 뭐냐면은요. 극단적으로 저 계약 1. 근데 실제로 우리가 여기도 그렇지만 0.66 0.24 0.10잖아요.
93:10
Speaker A
10 이러잖아요. 근데 무조건 이거다라고 하는 모델 과실이라고요. 그래서 일반적인 우리 학습에서는 모델은 정답의 0.99% 이상의 확률을 부여하여 확신을 하는 경향이 있는데 이게 과적함에 문제가 있을 수가 있어요. 일반항 안 될 수가 있기 때문에 일부러 이거예요. 이거랑 같아요.
93:35
Speaker A
제가 저도 옛날에 그런데 그런 사람들이 이제 상술이죠. 상 여러분들은 저랑 이제 다를 거예요. 저도 고등학교 전 고등학교 때 유명한 학원이었어요. 아직도 기억나.
93:49
Speaker A
여러분들은 요즘에 산상을 못 할 거예요. 학원에서 때려요. 근데 엄마들이 강남 엄마들이 미친 듯이 거기에 그죠. 지금의 대치도 그렇죠. 그 학원만 가요.
94:06
Speaker A
저도 하도 유명해 가지고 한 한 달 다녔어요. 근데 때리는 거 보고 이제 굳이 맞으면서 저렇게 수업을 들어야 되나 해 가지고 이제 안 들었는데 옛날에 홍익 학원이라는데 가셨어.
94:23
Speaker A
그 원장님 이름도 멋있어요. 김삼용. 진짜로 이름이 김삼용이야. 지금 아마 돌아가셨을 것 같은데 유명했어요. 이제 뭐 뭐로 유명했냐면 곧 제가 저도 아는 분 통해 가지고 제가 분명히 아는 누나가 있었거든요.
94:43
Speaker A
고등학교랑 때 수학이 40점이었어요. 근데 이래도 2대 들어갔어요. 거기 학원이 2년 다니더니 어 그래서 근데 가면 어떻게 하냐면 대형 학원이에요.
94:56
Speaker A
애들이 한 60명 돼. 그리고 어떻게 하냐? 수학 문제를 암기시켜요. 그죠? 그 공부방에 봤나 그랬는데 그러니까 이제 수능 시대 바뀌면서 이제 옛날 수능하기 전에는 이게 학력고사 세대들이 있었거든요.
95:15
Speaker A
저 위 때는. 근데 그분들한테는 먹히는 거지. 어 암기를 어떻게 하자면 문제를 쭉 푸셔. 그리고 더럽게 치를 지워. 분필 썼으니까. 그리고 한 명씩 복불복이야. 불러 풀려고 해.
95:33
Speaker A
풀리잖아요. 때려요. 공개적으로. 손바닥 마치잖아요. 아직도 기억나. 7판에다가 침뱉어 가지고 만 원을 걸어놔. 그래가지고 맞추면 걸려 가지고 맞추면 만 원 가져가라 그래. 그죠? 그런 공급 방법이에요. 그죠? 어.
95:57
Speaker A
어 그렇게 시켰어요. 그리고 항상 이거는 무조건 나와. 내가 20년 동안 뭐 기출 문제를 분석했더니 이건 100% 확신이야.
96:10
Speaker A
막 이런 말 하면서 가. 근데 사람들은 어리잖아. 애들은 그냥 믿는 거지. 어 저거 중요하대. 저거 100% 나온대.
96:20
Speaker A
그렇죠. 분위기는 공포 분위기죠. 때리는 분위기고. 그러니까 열심히 해요. 부가 그래. 왜냐면 그거 할 때 아무것도 못 하게 해요. 자기 강의할 때 손을 가만히 기침라고 해. 보라고 해. 그리고 저기 에어컨 친 여름이잖아요. 에어컨 소리가 물 듣는 소리가 들려. 그죠? 어. 그런
96:47
Speaker A
식으로 이제 강했는데. 근데 합격은 엄청했어요. 어. 내가 봐도 그 당시에 보니까. 근데 수능 만나면서 이제 많이 터진 거 같아요. 근데 이제 옛날씩 방식이죠.
97:01
Speaker A
그래 제가 이걸 왜 하냐? 이거죠.이 문제는 무조건 100% 1번입니다. 이게 상수. 그러면 사람들은 외워요.
97:13
Speaker A
그래서 답을 외우는 거랑 똑같은 거죠. 그러면 어떤 문제가 있어요? 문제가 조금만 바뀌는 틀리죠. 제가 무슨 말인지 알겠죠?
97:25
Speaker A
어, 제가이 피해자예요. 제가 이제 수능을 갔을 때 엄청나게 모의고사는 항상 이렇게 했죠. 그러니까 여러분 때는 그런게 없을 거예요. 제가 물어보니까 저분 기수록 저희 때는 이렇게 모이고 있어 보잖아요. 그러면 이렇게 학교 이렇게 1층부터 이렇게 층이 있잖아요. 제 4층이었던 거
97:51
Speaker A
같아요. 고3은 고3이었을 때 고3 그 이렇게 계단 내려가는 거 있잖아요.이 학교에서 그러면 옆에 계단 옆에 방이부터요.
98:02
Speaker A
1등부터 정교 20등까지 모의사 우수자 점수 공개예요. 어 그 그랬거든요. 저희 때 지금은 그러면 뭐 고소당한다면요.
98:15
Speaker A
어 근데 그때 항상 올라가 있었었어요. 예. 학원의 힘이죠. 시험 문제를 봤는데 뭐 예를 들어서 사탐 같은 보면 역사랑 세계상 섞어 버리고 물리하고 지구하기랑 섞어 버리고 이런 통합식으로 나왔어요. 처음으로 그전에 그렇게 안 나오다 하나도 모르겠는 거야. 이런 문제를 본 적이
98:43
Speaker A
없어. 그때 제일 많이 망했거든요. 친구들이. 어 실제로 갑자기 너무 갑자기 변해 그러면서 이제 모의고사를 정 모의고사를 세 번으로 늘리고 그랬던 거 같아요. 제 기억는. 그때 이제 너무 점수가 낮게 나오니까 전국적으로 그런 문제를 본 적도 없는 문제가 나오니까 이렇게. 근데 그게 잘못 지금 그
99:15
Speaker A
전까지 잘못된 공부 방법으로 가르킨 거죠. 그래서 그가 이게 일반화라는 거야. 어떤 걸 딱 하나로 그냥 고정시켜 버리면 융통성이 없기 때문에 다른 것만 나오면 못 하는 거죠. 그래서 모델 확신을 모델을 과시냐죠. 이걸이 문제를 해결하기 위해서 살짝 노이즈를 주는 거야.이 이 방법이 많이 써요.
99:40
Speaker A
일반화 때문에 정답 내부를 부드럽게 만들어 모델이 적당한 건 확신을 주게 하는 거예요. 그래서 만약 1이다. 그럼 0.93 0.003 0.0 이해되시죠?
99:55
Speaker A
어 이렇게 만드는 거야. 그럼 어떻게 하냐? 공식은 이겁니다. 그래서 여기에 그냥 보통 그러니까 어차피 정답이잖아요, 우리가.
100:07
Speaker A
그렇죠? 1인데 얘가 대세야. 얘가 맞는 거야. 그러니까 대신 얘가 너무 일반화가 안 될 수도 있으니 살짝 노이즈를 주는 거죠. 보통 10% 주는 거야. 그것도 많이 주는 거긴 한데 여기 0.1 주면 90%잖아요.
100:22
Speaker A
90% 원래 값 1이었는데 0.9 되는 거죠. 근데 클래스가 몇 개냐 이거야. 세 개면 세 개 나눠 준다 이거야. 이해되시죠?
100:33
Speaker A
어 그러니까 의심을 준다기보다는 노이즈를 준다고 하세요. 우리 우리한테는 알겠죠? 노이즈 아닐 수도 있으니까 뭐 어떻게 보면 동주님이 말씀하 것도 있죠. 어, 확률값입니다. 그러니까 AI는 실수할 수 있습니다. 뭐냐면 결국 얘는 확률 모델입니다.
100:56
Speaker A
이거예요. 확률은 여러분들이 AI를 그냥 맹신해 가지고 쓴다. 그러면 뭐랑 같은 건 줄 알아요? 정신적으로 AI를 신으로 모시는 거예요.
101:11
Speaker A
우리가 맹신을 맹신이 되면 그 물체 대상을 신이라고 합니다. 철학에서 알겠어요? 어, 여기 얘를 요거 있잖아요.
101:28
Speaker A
예를 들어서이 마우스를 그냥 내가 쓰는 물체로 볼 것이냐? 얘는 모든 걸 해결해 주는 나의 손 같은 존재야. 그렇게 느끼는 순간 정신 세계에서는 신으로 바드는 거야. 그걸 귀신이라고 하는 음. 옛날에 보면은 소도 신이고 막 그러잖아요. 지금 뭐 그렇죠. 어.
101:51
Speaker A
그러니까 그렇게 되는 거야. 그래서 요걸 계산을 한번 해 볼게요. 0 1이었잖아요. 거기다가 0.1하니까 0.9 + 세 개 분류하는 거죠. 1 0.933 그래서 나온 거야.
102:13
Speaker A
0.2는 이해되시죠? 그 0.1을 뭐 했냐? 이미지 매시라는 데서 요걸 써 가지고 우승했거든요. 그래서 권장했기 때문에 0.1을 쓴다. 그랬더니 일반화 성능이 향상되고 과급 방지되고 예측인데 실내도가 증가되는 걸 발견합니다.
102:36
Speaker A
알겠죠? 어 클래스 본유형 우리가 이거 강조했잖아. 의료 진단에서 이래야지 정상적 정상적인 사유에서는 환자가 많으면 되겠어요. 정상인이 많아야지 만 개가 있 있는데 9,900개 99%는 정상인 사람이고 질병 가질 사람은 100부이다 이거예요.
103:06
Speaker A
한마디로 이런 상황을 한다면 여러분들의 그냥 이제이 확률이나 퍼센티지의 단점이에요. 내가 모두 정상했는데 틀렸어. 정확도 90%잖아. 그러니까 이게 사기꾼들이 많이 쓴다고 그랬잖아요.
103:27
Speaker A
아 틀릴 수 있지. 1%인데 틀릴 수 있지. 얘 안 그래? 그러면서 아무것도 모르는 사람들은 퍼센지 그러면 그러네. 1%로는데 너무 몰라하지 마세요.
103:39
Speaker A
무슨 말인지 아시겠죠? 어차 쓸모 없는데. 그래서 어떤 걸 사냐면요 두 가지를 좀 아셔야 되는데 지금은 뭐 자세하게 요거는 이제 나중에 자세하게 나와요. 근데 오늘 어차피 코드를 돌릴 수 있으면 돌릴 건데 가중교차라는 거예요. 가중교치예요.
104:08
Speaker A
이걸 제일 많이 써요. 웨이트 뭐냐면 일반적으로 여러분들이 대상을 딱 보고 이게 지금 이렇게 99% 1%잖아요. 그러면은 항상 비율을 알아야 돼요. 이렇게 불경이 심하면.
104:23
Speaker A
그러면 뭐 하냐면 가중치를요 비율을 고려해 가지고 해야죠. 이해되시죠? 비율을 고려해서 소스 클래스의 손실에 더 큰 가정치를 보여요.
104:39
Speaker A
그죠? 소스 클래스. 당연히 손실은 크잖아요. 여러분 이거랑 똑같은 거야. 자, 여러분들에게 지금 100만 원이라는게 있다고 하면 100만 원을 100만 원을 투자해야 된다고 한 어디다 써야 된다고 할게요. 합기는 모든 근데 지금 여러분들은 지금 브링이도 지금 상황에서 연봉 360이잖아요.
105:10
Speaker A
그렇죠? 연봉 360호에서 100만 원과 일론머스크에 100만 원과 같아요. 퍼센티지로 아유 공정하게 10%만 합시다. 틀리죠.
105:27
Speaker A
단위가 그 상대적으로 이게 지금 그런 상황이거든요. 즉 이게 지금 요거 100개밖에 없는데 이게 소실 났어. 엄청 큰 거잖아요.
105:43
Speaker A
그렇죠? 그러니까 소수 클래스의 손실을 가정치를 크게 준다 이거. 전체 어떻게 계산하면요 클래스죠? 웨이트인데 전체 샘플스에서 나누기 클래스에다가 클래스의 샘플스를 곱한 걸 나눠요. 뭐냐면 얜 9,900개니까 가정치를 0.5를 5를 주는 거고요. 100개니까 50을 주는 거예요. 얘는 한번 손해를 본 손실 잘못하면 50배를
106:16
Speaker A
그냥 하는 거야. 알겠죠? 어 포클라스는 우리는 정말 중요해요. 그니까 포콜라스는 요루 때 설명한 거 외에는 강의를 따로 안 했던 거 같아요. 그냥 소개만 하고.
106:40
Speaker A
근데이 로봇 공학기은 정말 중요합니다. 시온 샘플의 손실은 무시해요? 아, 그럴 수도 있다. 내가 뭐냐면 잘 디텍션이 안 되는 거 있죠? 이해되시죠? 어려운 샘플에 집중해요. 이거 뭐가 같으냐면요.
107:02
Speaker A
여러분들 그거랑 똑같아요. 여러분 시험 같은 거 보면 희한하게 틀린 것만 틀리죠. 아, 이거 분명히 이거 저번에도 틀렸는데 잘 안 여워지고 막 그런 것들 있잖아요. 그리고 어떤 거 하보면 잘 발견이 안 되는 것들 있잖아. 내가 뭐 하려고 하면 이건
107:20
Speaker A
잘 안 돼. 그런 것들이 있죠. 거기에 집중하겠다는 거야. 거기에 집중하겠다는 특히 포글라스가 왜 중요하냐면요.
107:30
Speaker A
카메라의 종속성이 강한 거 있죠. 우리 쪽에 미세 공정뿐만 아니라 미세 공정은 왜 불량품의 문제지만 자율 주행차는 이런 잘못 발견하거나 어린아이 같은 경우에 확 튀어나오면 그 책임 누가 거예요?
107:53
Speaker A
여러분들 실제로 그런 사회가 많단 말이에요. 그렇죠? 차회주행차 사고 냈는데 어린아이가 갑자기 튀어나왔어. 그래서 만약 죽었어. 누구 책임이에요?이 못된 자유주행차 사용시킬 거예요.
108:13
Speaker A
여러분은 모든 본인 앞에서 화용시할 거냐? 사람 아이를 죽이다니 그러면서 누구 책임을 질 거냐 이거죠?
108:29
Speaker A
그래서요 어려운 샘플 집 포클라스가 있는데 -알파 곱하기 여기 좀 봐 봐요. 1 - b p 이해되시죠?
108:42
Speaker A
어 판별식 형태로 이제 봐서 계산하는데 정답 확률이 0.9잖아요. 결론만 말하면 손실이 거의 무신되고 0.1이면 좀 이미 손실이 크게 그렇게 만들었어요. 원리가 그니까 포컬라스는 불교행 심한 1대 100 이런 거 있잖아요.
109:08
Speaker A
효과적이고 객체 탐지 오브젝트 디텍션 이런데 써요. 그때 감마 2알파 0.25 여기 보시면 여기다가 뭐 하나 더 써 드리긴 하는데 여기 이제 감마 알파 있잖아요.요 값들을 사실 이게 표준 설정이기 때문에 그냥내어 가지고 계산하면 되는데 어떻게 하냐? 정답 확률이 만약에 0.9 0.5 0.1 뭐
109:36
Speaker A
이런식이 있으면 일반 여기 지금 0.9일 구일 때 내가 확률값을 높을 때 있잖아요. 일반적인 크로스 엔트이 작고 영적 확신도가 낮은 애는 내가 정당이 낮은데 이거라고 확신해 가지고 모델이 예측했다 그러면 크게 이게 일반적인 C죠. 근데 얘는 거의 무시해요.
110:00
Speaker A
얘는 똑같습니다. 그래서 이게 이제 불인용 데이터를 처리하는 방식인데이 표로 이제 나왔지만 여러분들 지금 기억만 하시면 돼요. 어 그냥 한번.
110:16
Speaker A
근데 이제 결론부터 말하면 우리가 일반적으로는 이걸 쓰 처음에 어 보니까 우리가 지금 어떤 설문지를 해 가지고 일반화를 해야 돼.
110:30
Speaker A
어, 지금 요즘에 화두가 초등학교 교사 문제거든요. 뭐 거꾸로 여성 단체들에서는 어, 여성을 얼마 정도 뽑아야 된다.
110:44
Speaker A
원래 지금처럼 더 뽑아야 된다. 이제 이런 말을 하고 있고 사회적 약자인 맞 맞기 맞으니까. 근데 이제 또 이게 지금 자꾸 사랑해야 될 남자와 여자끼리 싸우고 앉아 있으니까 문제 뭐예요?
111:00
Speaker A
그니까 이게 통계를 갖고 얘기를 해야 된다는 생각을 저는 되게 많이 해요. 어 그리고 또 오히려 지금 초등학교 선생님들은 오히려 남자 선생님을 몇 명은 어느 정도 있어야 된다. 이런 말을 하고 있어요.
111:17
Speaker A
지금 수학년에 안 가는 것도 거기에 해당된다. 왜? 이제 필요한 거죠. 힘을 써야 되거나 이제 특히 큰 그 초등학교 1학년 말고 초등학교 5학년 6학년만 해도 키가 크고 발이 잘 돼 있잖아요.
111:32
Speaker A
통제하기가 힘들대요. 남자 아이들. 그렇죠. 선생님이 혼자서. 그리고 단임을 다 안 맡으려고 하고 그래서 그런 문제가 있으니 이걸 어떻게 할 것이냐 이런 식으로 많이 한대요. 그러면은 사실은 이런 연구를 다 같이 공유해 가지고 이렇게 계산을 해 가지고 비율 같은 걸로 하면
111:53
Speaker A
실제로 설명 같은 거 할 때 이런 식으로 하거든요. 우리는 1원칙이 뭐냐면 웨이티드 C를 이용하시는게 좋거든요. 뭐냐? 분명히 비율이 바르다 그러면 그 비율을 고려해서 가정치를 설정을 과학적인 방법으로 해 가지고 어떤 결과를 보고 통계적 보고 서로 얘기를 하면은 또 다르거든요.
112:16
Speaker A
어 근데 이제 서로 입장만 하니까 극단으로 지금 모이는 거 같아요. 어 좀 안쓰러워요. 그 그이 특히 통계적으로 이제 공부를 하다 보면 더 그런게 보여요. 아,이 사람들이 이런 걸 좀 알고 좀 했으면 주장하는 건가? 그냥 자기 생각만 하는 건가? 이런 생각을 좀 많이
112:38
Speaker A
하게 돼요. 둘 다 둘 다 그런 거를 갖고 얘기를 안 하니까. Y 보면 1대 10, 1대 100 극단적이잖아요.
112:50
Speaker A
그렇죠? 그러니까이 비율을 갖고 아까침에서 계산해 가지고 가정치는 누구는 5다섯 배 손실 나면 다섯 배 누구는 50배 이런 식으로 하면 되거든요. 딱 수치로 나오니까 시원 일반적인 분경이 이렇게 해요. 그리고 실제로 이제 많이 쓰는 머신러닝 기법이 오버샘플링 언더세플링 스모트예요. 그 스무트는 사이너에서
113:17
Speaker A
그냥 주어지기 때문에 되는데 결론부터 말하면 오버샘플레는이 너무 좋은 거예요. 자, 하나는 너무 막 어느 정도 적당한데 하나는 너무 없는 거예요. 데이터가 너무 없으니까 데이터를 뻥튀게 하는 거죠.
113:33
Speaker A
데이터 증가해요. 그죠? 언더세플링은이 하나만 너무 큰 거야. 나머지는 다 비슷비슷한데 얘만. 그러니까 얘를 줄여 가지고 비율로 줄여 가지고 서로 맞춰 주는 거야.
113:46
Speaker A
이해되시죠? 스모트는 뭐냐면 합성기법을 이용하는 거예요. 데이터를 일단 어느 정도 가져와서 여기 보시면 데이터가 너무 작아가 가지고 얘를 근데 그렇다고 무조건 그냥 다 두 배 세 배 하면은 이것도 외곡이니까 그죠? 랜덤하게 나수 같은 거를 생성해 가지고 서로 어느 정도
114:09
Speaker A
비율이나 이런 걸 갖고 데이터를 만들어서 쓰는 방식이에요. 근데 얘는 어 사이키노에서 스모트 하면은 잘 그리고 되게 잘 나와요. 결과가. 그래서 많이 쓰는 방법이에요. 그래서 그냥 현실 사회에서는 머신 러닝으로 제가 끝난다고 그랬잖아요. 그냥 일반적인 내면 생각해. 제가 그거는 서울대
114:33
Speaker A
그때 통영 통계 교수님 아 통계학과 박사님 지금 GS 25 저랑 같이 공부했을 때가 부장님이었는데 지금 어디 어디실지 모르겠네요. 그분께서 그랬어요.
114:48
Speaker A
생각해 봐라. 우리는 그렇게 큰 실생에 그렇게 딥러닝 쓰리 많지 않다 그랬어요. 그 당시에는. 왜요? 그래들은 아니 GS25는 전국에 많이 깔려 있지. 평의점에서 취급하는 물품이 이마트나 이런 데서 하는 백화점에서 하는 거랑 같냐고요? 적잖아요.
115:10
Speaker A
음. 맞지 않아요? 여러분이 이마트에 있는 빵의 개수와 평의점에 있는 빵의 개수랑 틀려요. 그렇죠? 그러니까 얘네들 대신 볼륨이 크겠죠.
115:23
Speaker A
판매 량이 크겠죠. 전국에 GS 25가 얼마나 많겠어요? 그렇죠. 볼륨이 장난이 아닐 거 아니에요. 아니 몽고도 있더만. 울란바트로도 그죠. J25가 그러니까 엄청 많을 거 아니에요. 그러면 항목에 따라 변수 한목에 따라 볼륨은 그냥 숫자 노론이잖아요. 공 하나 더 있냐 이거잖아요.
115:46
Speaker A
그렇죠? 계산할 때는 그러니까 변수가 그렇게 많지 않기 때문에 그냥 일반적인 머신 다 된다는 거야.
115:55
Speaker A
그냥 SPS로 된다는 비정용 데이터인 이미지나 자이언너 처리가 안 되니까 그때 그래서 그때 당시에도 GS25도이 채치T가 엄청난 일을 한 거야.
116:10
Speaker A
하시는 그 전까지만 해도 뭐 인공지능 인공지능 해도 딥러닝은 뭐 할 때만 썼냐 딱 두 명이 있다 그랬었어요. GS 그 본사에도 댓글 분석하는 팀.
116:27
Speaker A
그래서 그거 갖고 이벤트 그거 갖고 맨날 마케팅 팀하고 이벤트 뭐 할 건가? 그 이벤트가 큰 것도 아니야.
116:35
Speaker A
여러분 평점 가서가 저도 웬만하면 평의점 안 샀는데 갈 때 사는 거 있어요. 어쩔 수 없이 어쩔 수 없이 저거 별로 안 좋았는데 왜 1플스원 2플원 그렇죠? 이벤트해요. 이벤트 어 껴팔이키 그렇죠.
116:56
Speaker A
여러분 제가 꼭 가는게 맨날 가서 편점 가서 확인하는 거 있어요. 우리 그 사무실 별 때 확인다지 원플러스 아 하나 못 먹겠더라고 저번에 생각도 없이 카드로 한꺼번에 계산하니까 몰랐다가 한 개에 6,000원 가까이 되더라고요.
117:13
Speaker A
그죠? 그걸 원플러스원이면 무산 먹어요. 어 너무 비싸요. 그죠? 아, 물가가 정말 많이 비싸네. 바깥만 생각했다가 과자나 이런게 이렇게 비싸는지 몰랐어.
117:28
Speaker A
어, 그러니까 그렇게 생각하시면이 일반적인 건 다 머신러닝 기법에서 다 돼요. 이게 다 머신닝이 있어요. 사이노에.
117:41
Speaker A
그리고 여러분들은 요거까지 알아야 돼. 불행하지만. 왜냐면 여러분들 자율주행스 중요하겠지 봐도. 잘 인식이 안 돼.
117:52
Speaker A
해결해야지. 그렇지 않겠어요? 잘 인식이 안 돼. 해결해야지. 어, 그 심한 불결. 심한 불게. 그래서 처음에 가장 적절한게 이거라는 거예요. 여러분이 불균형 정도를 파악할 때는 처음에 클래스를 항상 계산해야 돼요. 알았죠?
118:20
Speaker A
비율를 계산해서 가종치를 해 가지고 어느 정도 불교 보고 일반적으로 요걸로 다 해결돼요. 자, 그래서 적절한 방법은 데이터 크기와 샘플이 몇 개나 있냐? 불균형 정도 부연 지금 봤때 현실적으로 그 사실은 웨이티 C하고 나머지는 요게 그리고 그냥 스모트 그래서 사실은 불경 이거 할 때도
118:47
Speaker A
다 돌려 봐요. 그냥 코드 한 줄이니까 각각네 개를 다 돌려 봐 가지고 제일 좋은 모델 비교해 가지고 그냥 끝내요. 그 멋진 보고서 생리죠. 한 다섯 페이지만.
119:00
Speaker A
근데 여러분들 요거 하나 더 해야 된다. 근데 이제 이미 다 내장돼 있어요. 요로에. 자, 실험과 검증을 통한다. 자, 이렇게 보시면 되겠어.
119:15
Speaker A
자, 이제 그리고 요것도 로봇 공항에서 중요해요. 여러분 슬램이라고 한 여기서 하실 건데 그때도 이게 나와요.
119:25
Speaker A
왜냐면 여러분은 시뮬레이션 하기 때문에 가중치도 가중치를 또 공간으로 선청으로 던진 거야. 지용도로 만드는 거야. 실제로 가상의 지용도를 만들거든요. 뭐냐면 어 시뮬레이션을 보면 여러분이 이제 로봇 청소이 생겨. 제가 맨날 저는 줄여서 노청이라고 하는데 얘 노청이 보면은 처음에 거기 나와요. 지금 얘가 이렇게 루 돌면서
119:54
Speaker A
주변 지역을 인식하고 있는 중입니다. 이런 말 나와요. 그러면서 뭐 하냐면 얘가 본면을 인식하는 거야. 이렇게 얘도 박으면 안 되잖아요.
120:04
Speaker A
그렇죠? 어, 박으면 어디 벽이나 있는데 박으면 안 되니까 인식해야 되죠. 공간 지용도를 만드는 거거든요. 그 안에서 재밌을 거예요. 재밌는데 어려워요.
120:16
Speaker A
응용하려면. 근데이 가존치 공간의 손실값의 변화를 나타내는 지역입니다. 뭐냐면 우리도 보면 산도 높낮지가 있는데 우리가 그래서 등고성 같은 거 그리는 거잖아요. 이렇게 지도는 2D 평면이니까. 그렇죠?
120:34
Speaker A
어 그래서 우리의 목표는 가장 낮은 계국을 찾는 거야. 그래서 부드러운 구면은 그레디언트가 일관되고 안정된게 나오나요? 그래서 최적값 찾기가 쉽습니다. 부드럽게 이제 공면이 되면.
120:53
Speaker A
왜냐면 이게 왜 중요하냐면요. 이게 직면거나 모서리이면 내지라고 해서 찾기가 쉬워요. 나중에 이거 응용때 배워요.데 공명 같은 경우도 부드럽게 이렇게 연결되잖아요. 그럼 찾기가 쉽죠. 변화가 심하지 않으니까.
121:09
Speaker A
이해 이해되시죠? 근데 넓은 최솟값 일반한 속인가 안 정어야 돼요. 자, 이게 어떤 것으로 최소값이 만약 이렇게 되다고 이렇게 되는게 있고 이렇게 최솟값이 이렇게 최소값이 있다고 해요. 그 이렇게 되면 변화가 극심해지죠.
121:34
Speaker A
한쪽으로. 그러면 여러분들이 좀만 잘못 예측해도 확 흔들려 버려요. 수치구라선. 그래서 최소값이 넓게 퍼져 있으면 이제 찾기가 좀 조아요.
121:49
Speaker A
근데 적은 지역의 최소값은 전욕 최소값을 찾기가 쉽다 이거죠. 로컬. 어, 그래서 손실 보면은 사실 개념만 좀 이해하시고 그냥 소개만 한 거예요.
122:07
Speaker A
음. 얘는 배치말 사용 우리가 배웠죠. 내부 보면 그거 이제 아직 안 배웠는데 스키 커넥션이라는 기법 어 레지네션이라는 거에서 배울 거예요. 그래서 웨이트가 죽지 않게 이전에 웨이트를 가져온다 이렇게 생각하시면 돼요. 이제 네트워크 즉 이게 음익층이 많이 쌓이면 웨이트를가가 죽고 모델이
122:34
Speaker A
복잡해지잖아요. 계산량이 복칙하니까. 그래서 그 웨이트를 찾기 위해서 하는 표현이고요. 그다음 우리 배웠어요. 히 초기와 적절한 초기와 그다음에 배치를 너무 크게 하면 안 돼요. 작은 매치를 통해서 넓은 최소값을 발견해야 돼요.
122:56
Speaker A
그래서 학습 안정성을 확보한다는 건 그레디언트 클리핑이라는 건 뭐냐면 클립하면은 자르다 이거든요. 그러니까 뭐냐면 얘가 갑자기 이렇게 심하게 출렁이잖아. 웨이트가. 그러면은 삐져 나온 거 우리가 우리도 그러잖아.
123:12
Speaker A
이렇게 했는데 뭐가 삐져 나왔으면 자르잖아요. 그러니까 그런 걸 클릭해야. 그러지 않으면 계산할 때 폭 폭발이 일어날 수 있어요. 계산이 안 되거. 난 N이 실제로 나와요.
123:25
Speaker A
어, 그리고 우리 웜업 배웠죠. 웜업 뭐예요? 제가 자동차 시동 걸 때 처음에 예열한다. 그게 웜업이잖아요. 뭐냐면 학습률을 천천히 올리는 거죠. 너무 급격하게 올리는게 아니라 그래서 안전하게 초반에는 안전하게 탐색하기 위해서 그렇죠.
123:44
Speaker A
살짝 오히려 떨어뜨려야 되는데 처음에는 살짝 천천히 증가시키는 그런 다음에 이제 내려가는 거죠. 알겠죠, 여러분? 그거랑 똑같아요. 스키나 여러분 보드 여러분들은 보드 많이 타시죠? 저는 이제 보드는 못 하겠다 그때 그 한 5분간 눈 속에서 너무 큰 충격에 이게 죽는 거 아닌가 하고
124:17
Speaker A
꼼짝을 못 했어요. 그때 그다음부터 무서워 가지고 못 하겠는데 너무 심하게 꺾여 가지고 불러 떨어져 가지고 다치 다행히 다치지 않았어요.
124:26
Speaker A
나 혼자 그렇죠. 너무 크게 떨었어.이 이렇게 떨었어. 다행히 눈이니까 살았던 거. 이렇게 해서 이렇게 떨었어. 그죠?
124:37
Speaker A
너무 큰 적이 없어요. 어, 근데 이제 어, 스키 같은 거 또 보시면은 거기 선수들도 그렇게 하잖아요. 처음에 폭풍 내려오냐고요. 그건 대회가 그런 거 직칼강하는 거지. 대부분 어떻게해요? 천천히 이렇게 쓱 보시다음에 어느 순간에 쭉 내려오시죠.
124:59
Speaker A
그거랑 같은 거야. 어 그래서 처음에 어 안전하게 아 여기서부터 내가 내려가야지 이제 그런 거랑 갖다 온고 싶 적절한 학습을 하는 거죠. 왜?
125:14
Speaker A
진동되면 추렁이잖아. 수치가 불안정한게 제일 신뢰를 못 하기 때문에 그리고 손식값을 모니터링해야 되. 자, 그러면 이제 오늘 강의 내용은 이론은 여기까지 하고 네. 이쪽에서 이제 하나씩 보도록 하겠습니다.
125:48
Speaker A
응. 으셨나? 자, 어, 오늘 과제 소개를 먼저 좀 해 드릴게요. 오늘 보시면 토치와 뉴럴 네트워크 하시고 미스케어와 MA 그다음에 아웃라이어하고 어떤게 있는지 그러니까 이런이 정도가 어 서술화시라고 제가 돼 있는데 이건 사실 어 기술 면적 어디 어디였지?
126:59
Speaker A
마인즈맵이었나? 거기에 그 기술 면적이었어요. 자 그다음에요 BC 라직로스를 수적 안전성의 관점에서 서술하는 거. 그다음에 나머지 코드 문제. 어, MA 플라스. 그다음에 상속 받아 가지고 코드 쳐보는 거. 그다음에 휴버라스 공식 이거 그죠? 그래서 0.5문이 어떤 경우 어떤 ms ma 델타값
127:30
Speaker A
기준으로 하는 거. 그다음에 BC더라지플라스의 특징이 있었죠. 어 그때 어떻게이 분류는 추력이 한 개다. 이제 이런 요구 사항을 보고 여러분 코드 짜 보시고요. 그다음에 라벨 스무딩 문제예요.
127:49
Speaker A
어 그래서 세 개 클래스 블루에서 계산하는 거 한번 해 보도록 하시겠습니다. 자, 그래서 첫 번째 거 한번 볼게요.
128:12
Speaker A
자, 여기 보시면 NN 토치 옵티 사이키논이죠. 거기서 분류 문제를 하기 위해서 데이터를 만들어 달라고 한 거고 이제 모델 셀렉션의 트레인트 스프리트 자 훈련용 데이터와 평가형 데이터 나눌 거고요.
128:31
Speaker A
토치 비전에 데이터셋과 트랜스포먼스 그죠? 요게 뭐예요? 전 처리하는 애죠. 그다음에 데이터 로더. 로더가 딱 나오는 순간 우리 뭐라고 생각해요? 배치. 알았죠? 이게 연관해서 외우시대요. 어.
128:48
Speaker A
그래서 요거는 디바이 설정하는 거고요. 내가 쿠다가 사용 가능하면 쿠다를 쓸 거고 아니면 CPU를 쓸게 이거예요. 그다음에 시드값 수를 생성할 거니까 왜 우리가 실타를 가져오는게 아니라 만드는 거잖아요.
129:04
Speaker A
그러니까 시드값을 설정해서 하겠다 이거죠. 자, 이제 우리가 했던 것처럼 바이너리 하고 시위 with라스랑 같이 해 볼게요.
129:23
Speaker A
뭐냐면 배웠던 것처럼 make피션 하면 만들어 주는 거죠. 분류 문제에 쓸 데이터를 전체 4,개의 데이터를 쓰는데 변수는 20개야.
129:37
Speaker A
그러니까 이제 어디에 입력해서 집행이 들어갈 때 20개부터 시작하겠죠. 근데 여덟 개는 우리가 중요한 정부를 받고 있는 거고 12개는 그냥 리던트 있죠. 그지? 그건 안 적 없고요.
129:50
Speaker A
웨이트는 x 독립 변수와 종족 변수로 할 건데 0.6과서 0.4로 4로 주고 랜덤 스테이트는 그냥 어 랜덤하게 우리가 시드칸 뽑을 때 첫 번째 걸로 할게 이거잖아요. 그래서 XY 그다음에 트렌 테스트 플레이션 이용해서 훈련 데이터와 테스트에 다 나눌 거죠. 그 전에 얘가 뭔
130:20
Speaker A
질했냐면 각각을 텐서로 바꿔 줬어요. 토체 텐서를 써서 데이터 타입은 같은 동일한 데이터 타입이야 되잖아요.
130:31
Speaker A
프로 기본인 프로트 32 독립 변수 다 텐스로 바꿔 줬고 Y도 동일하게 하는데 형태를 셰을 맞춰 주기 위해서 언스키즈 1에 이숙해져야 돼요.
130:51
Speaker A
그렇게 하고 테스트 사이즈는 30%했으니까 트레인 데이터는 자동으로 70%겠죠? 요 랜덤 스테이트는 이제 그때그때 돌 때마다 한번 그 난수 생산해서 만들었을테니까 섞어 줬을테니까 첫 번째 거를 가져와서 활당하겠죠.
131:12
Speaker A
트레인 엑스트레인 엑테스트 얘도 트레인 테스트. 자, 그런 다음에 우리가 바이너리 넷을 빈넷이라고 한 거죠.
131:34
Speaker A
자, NM 모듈을 가져와요. 그래서 초기하고 포워드하고 그래서 상속받고 어떻게 쌓냐? 뉴럴 네트워크의 시퀀셜 형식으로 써요. 케라스처럼. 처음에 아까 20개 만들었으니까 20기가 들어와서 내가 얘는 64개 나가게 하고 레화시켜서 얘가 64개가 다음 은행층에 64개로 바뀌겠죠.
132:06
Speaker A
이진 분류니까 하나로 나가는 거야. 왜? 하나가 선택 되면 0번이야. 그럼 자동적으로 1번은 폴스가 되니까.
132:17
Speaker A
그까 이런 식으로 해서 m이라고 하고 이포드 어떤 x가 있으면 그 m에 x값으로 들어가게끔 하면 되겠죠.
132:32
Speaker A
자, 그런 다음에 일단 돌려 볼게요. 라스 펑션을 만드는데 런바이너라고 할게요. 얘를 이제 구동한다. 이런 뜻이죠. 라스 펑션을 여기 들어요. 자, 바이너리 네트워크에 요거 지금 유용을 저 T4로 돼 있어요.
132:52
Speaker A
자, 얘를 디바이스 GPU에 넣고 네트워크 한 다음에 아담 W는 저번에도 봤지만 웨이트디케이가 있어요. 왜냐면 점점 가중치가 감세라 한국말로 가중치 감세라고 하는데 가중치를 점 처음에는 좀요 롤리네이드를 쭉 가다가 이거보다 작게 어느 순간부터 그걸 자동화해 준다는 거예요. 모델에 갖고 있는 네트워크의 파라미터 WB를 내가
133:24
Speaker A
조정 대상으로 보는 거죠. 그 러닝 네이트는 얘는 뭐예요? 0.001이죠. 그죠? 그래서 우리가 최적하기를 만들고 얘가 아무것도 없다는 거 그냥 네가 여덟 번 반복만 해라. 이런 뜻이에요. 어디 할당하지 말고. 자, 여덟 번 반복 돌려 가지고 할 건데 요것들을 할 수행하겠다 했죠.
133:47
Speaker A
여기까지. 자, 그러면 그 모델 네트워크를 훈련시킬 거야 하고 명시적으로 한 다음에 얘를 처음에 초기하는 거죠.
133:59
Speaker A
옵티마이저를. 그러고요 네트워크 모델에다가 집어넣으니까 얘는 뭐예요? 트레인 데이터로 훈련시켜야 되니까 엑스트레인 데이터가 들어가요. 근데 걔가 GPU를 타게끔 해야죠. 그래서 그냥 모델 안에 X 있는 거랑 똑같아요. 여기다 찍어 놓고 얘가 로지 아웃이 나올 거예요.
134:23
Speaker A
걔랑 라스트 펑션이니까 Y트레인 또 근데 얘도 디바이스에 넣어야 되죠. 그거 갖고 라스를 구해요. 그다음에 라스를 백프로게션 역전파하고 옵티마이저를 변경하는 거죠. 조정을 해 줘요.
134:41
Speaker A
그다음에 중요한 거는 자 이제 요게 딱 위드 토치 노그레이드가 나왔다는 건 얘를 이제 평가하는 거죠.
134:47
Speaker A
그러니까 여기 사실 여기에 모델점 이배라고 안 쓴 것뿐이지. 아, 이렇게 안 쓸 경우도 있어요.
134:54
Speaker A
토치 노래드 하고 얘 테스트 데이터를 또 GPU에 넣에 모델이 통과시킨 거죠. 그 값을 매규수로 받아서 시그모이드를 통과한 걸 프로빌리티가 나올 것이고 얘가 0.5보다 크면 이게 프로트 된 거죠. 어 맞은 거잖아요. 트루라고 한 거잖아.
135:18
Speaker A
1 1일 거 아니야. 시그머니까. 그리고 실제 테스트 데이터 있다. 정답. 그것을 GPU에 넣은 거.요 두 개가 같은 거.
135:31
Speaker A
걔를 프로트로 바꾸고 그의 평균을 만든 다음에 아이템 즉 파이썬 숫자로 바꿔 주면 에큐스죠. 그래서 내가 에큐스를 구하는 거야.
135:44
Speaker A
그래서요 함수로 이제 만들었으니까 여기다가 런 바이널을 쓸 건데 여기 라스트 펑션이거든요. 근데 이제 코드가 좀 복잡해 보이지만 얘는 뭐냐면 내가 아웃이라는 예측값이라는 어떤 x대신 아웃이라고 쓴 거죠. 이게 있어요.
136:02
Speaker A
걔는 뭐냐면 네가 미니스퀘라스를 계산하는데 그 안에 매기 변수는 이렇게 바뀌었다는 뜻이에요. 토치의 시그모이드요 아웃을 통과시킨 시그모이드와 이게 통과 시그모이드 나온게 예측값이죠. y핵과 y를 비교해서 미스퀘어드 에러라스로 배기 변수를 넣어.
136:26
Speaker A
그리고 요걸 이제 ACCM이라고 할 거고 BC라직스 오늘 배웠죠. 요걸로 해 가지고 한 것을 AC BC라고 해 가지고 소수 세차짜리까지 하면 얘는 0.58이 나오고 얘 0.627이 나와요.
136:48
Speaker A
여기까지 일단은 이해하는 시간을 가져야겠죠. Так. 그러면은 쉬었다가이어서 진행해 보도록 하겠습니다. 습니다. 자 그러면 요거이어서 진행해도 되겠죠? 멀티클래스에서 가중 분류란 뜻어요. 우리 아까 배웠던 라벨 스무딩과 클래스 웨이츠에 대해서 한번 해 볼게요. 자 여기 보시면 트랜스폼s 여러분 기억 꼭 하셔야 되죠. 어 이게 이제 전
149:42
Speaker A
처리하는 거죠. 토치해서 컴포즈 해서 요게 뭐냐면 텐서로만 지금 바꿔 준 거예요. 0과 1사이죠. 자, 그런 다음에 엠미스트라는 데이터 얘를 템퍼러리라는 폴더 아래 갖고 오고 우리 이제 이건 익숙해지실 거예요. 데이터셋가 가지고 오니까 트레인 투 하면 트레인 데이터를 갖고 오겠다는 뜻이고 얘는 결국 트레인
150:10
Speaker A
데이터가 아니니까 테스트 데이터 나머지 테스트 데이터를 갖고 오고 만약 그게 없다면 다운로드 받겠다. 그리고 전철이 조는 내가 설정한 TFM을 쓰겠다 이것죠. 실제 얘는 6만 개고 얘 만 개예요. 자, 중요한 건 토치에서는 이제 익숙해지실 거예요.
150:30
Speaker A
데이터 셋을 배치가 들어가서 데이터 로드로 만들죠. 근데 어 일반적인 실무에서는 이제 보통 테스트 데이터의 배치 사이즈를 두 배 정도 늘려 가지고 한다. 근데 256으로 해도 된다 이거고 중요한 건 이거죠. 트레인 데이터 할 때는 반드시 훈련할 때는 일반화를 해야 되니까 아직 모델
150:54
Speaker A
만들기 전이니까 플트를 해야 되고 얘는 하면 안 돼요. 절대. 왜? 테스트 데이터는 그냥 새로운 데이터다. 그렇죠? 뉴커머다 이렇게 생각해야 돼요. 그러니까 요렇게 트랜 테스트를 이제 설정했어요.
151:10
Speaker A
자 그다음에 스몰 CNN을 이제 하는 거죠. 음. 보시면 스몰 CNN 이제 CNN을 아직 안 배웠는데 이제 일단은 설명을 좀 드리면 여기 예제가 이거가 나와 버려 가지고 어 CNN는 그냥 이창원 결론부터만 좀 먼저 말씀드리고 그다게 잠깐만 응 뭐야 이거
151:47
Speaker A
어 알 아이 사라져 가지고 지금 다운했어요. 어 치고야지. 알펜 어 요거 펜 이거 보시면 스웨는 이렇게 보시면 돼요. 요렇게 사진 이미지가 하나 있다고 할게요.
152:16
Speaker A
보자. 자, 이런 이미지가 하나 있어요. 그러면 그냥 보통 우리가 지금까지는 어, 이렇게 요렇게 나눠서 이제 요걸 이어붙여 가지고 1차원 벡터로 만들었어요.
152:36
Speaker A
1차원 벡터 이거를 DN이라고 해요. 딥 네트워크. 근데 CNA는 어 결론부터 하면 2차원 그대로 가져와요.
152:51
Speaker A
행렬 매트릭스 구조로. 어 예. 칼리나 이거는 라블링이고요. 예 알았어요. 적어 드릴게요. 어 자 근데 이제 우리가 이제 이걸 처리할 때는 1차원으로 지금까지 처리를 했죠.
153:12
Speaker A
그 벡터로 그걸 DN이고 2차원 매트릭스 형태로 어 처리를 하는 걸 CNN이라고 합니다. 근데 일단 CNN는 정의는 CNN 처리 방법이 이거라는 거예요.
153:26
Speaker A
어 자 그래서 어떤 식으로 처리하냐면 여기에 이런 필터로 돼요. 색 바꿔야죠. 필터를 돼서 필터가 이렇게 이동해요.
153:41
Speaker A
이렇게 하나씩 이동하면서요 특징들을 뽑는 거예요. 어, 그리고 내려가고 내려가고 내려가고 내려가고 그래서 얘가 이제 뭘 만드냐면 여기에 이제 2,000원으로 이제 이걸 필터를 보기 때문에 필터에서 나온 값들이 있어요. 그것을 뭐라고 하냐면 피처 맵이라고요.이 피처 맵들을 갖고 훈련을 한다 이거죠. 그래서 2차원으로 특징을
154:16
Speaker A
추출해요. 얘 하는 일은이 이미지가 갖고 있는 특징을 추출하는 일을 합니다. 그런 다음에 마지막이 최종 분류할 때는 결국은 특징이 추출이 끝나면 분류로 가요.
154:35
Speaker A
그걸 클래소파이어라고 합니다. 그래서 이때는 다 1차원이에요. 1차원이라는 건 베타죠. 자, 그래서 이제 요거는 이제 갑자기 이게 CNA 나와서 잠깐 설명드린 거고 일단은 나 다른 것들은 다 절차가 똑같으니까 어 넘어가면요 스몰 아주 작은 CNN 모델을 쓸 건데 뉴럴 네트워크의 모드를
155:05
Speaker A
상속받아서 초기화를 할 거야. 그리고 얘를 상속받은 것을 초기해서 시퀀셜하게 순차적으로 내가 쌀 건데 두 가지 방식이 있다 이거죠. 처음에 여기 휘처를 추출한다 그죠? 특징을 추출해요. 근데 얘가 뭐냐면요 하나가 들어가서 16개로 나간다는 얘기.
155:30
Speaker A
그리고 요게 뭔 뜻이냐면요 커널이 필터라고 하거든요. 요거 요거를 커널이라고 해요. 필터. 필터인데 이제 커널이라는 이름을 갖고 있고 얘를 3 * 3짜리 필터를 갖다 되겠다. 이런 뜻이에요.
155:49
Speaker A
그리고 이제 이걸 갖다 대다 보면 어 여기에이 사이즈가 이제 적어지거든요. 그걸 이제 패딩을 되겠다는 뜻이에.
155:59
Speaker A
일단은 지금 아직 CNL 안 배웠으니까 아, 이런게 있다 정도만 하시면 될 거 같고 이렇게 2차원을 2차원 이미지를 다 1차원으로 방용해 가지고 우리가 훈련하는게 아니라 2차원인 이미지를 특징을 뽑을 때 2차원 형태를 갖고 있는 코너를 갖다 돼서 특징을 추출한다. 이게
156:23
Speaker A
CN이다. 일단 여기까지. 그래서 요렇게 뽑고 그다음 얘를 낼 통과시키고 그다음에 그중에 이제 큰값만 이거 이제 맥스플링은 이제 여기에서 가장 큰 값 여기 지금 이렇게 특징이 추출해 가지고 나왔을 거 아니에요. 그때 가장 큰 값만 뽑아 준다 이거야. 예를 들어서
156:49
Speaker A
특징 여기 지역 정보 요걸 갖고 특징을 뽑았는데 4 2 1 0이다. 그러면 가장 큰 값인 이걸 다 쓰는게 아니라 요것만 갖다가 내가 이쪽 지역은 4 그지?이 요것만 갖다 쓸 거야. 이제 이런 거예요.
157:09
Speaker A
그게 맥스프닝이에요. 이렇게 한번 해 주고 그다음에이 16개가 다음 운에는 얘가 나오겠죠.이 출력값이 입력값으로 가죠. 그런 다음에 32개로 이제 피처 맵을 32장을 만들어 줍니다. 32장 만들어 주고 3 * 3짜리 갔다 돼서 그다음에 이제 크기가 줄어질테니까 패딩 하나 되고 그런 다음에 레화시킨
157:37
Speaker A
다음에 똑같이 가장 큰 값은 뽑고 이런 걸 두 번 걸친 다음에 마지막에 컴퓨터를 보낼 때 이게 플레틴이라 나와요. 우리 이거 배웠죠. 평평하게 하다. 1차원으로 만들어 주는 거예요. 그러니까 여기에 특징 맵들로 특징이 다 뽑으면 얘네들을 다 1차원 배열로 만들어 준다는 거죠. 그런
157:59
Speaker A
다음에 그러니까 그 나온 값을 보니 여기 출력값인 32개에다가 실제 나온 값이 7 * 7였어요. 그 7 * 7짜리도 다 뭐를 해 줘야 돼요? 1차원 배울로 만들어 줘야 되니까 곱해 줘요. 그래서 이게 입력값으로 들어가는 거예요. 그리고 마지막에는 128개로 나온다 이거죠.
158:22
Speaker A
자, 그때 나온 애를 또 렐루를 통과시키고 그다음에 1차원인 애를 1차원으로 그냥 쭉 펴 가지고 분류는 우리가 열 개로 분류하는 거잖아요.요 출력값이 128이니까 그 출력값이 입력값으로 들어가요.
158:38
Speaker A
128개가 들어와서 열개로 나온다. 왜? 0부터 9까지 숫자를 맞추는 게임이니까. 자, 그래서 그렇게 이제 준비물을 만들어 놓고 그냥요 X가 들어오면 그이 네트워크 모델을 통과시키게끔 하는 거예요. 그래서 이런 간단한 어 CN 모델을 내가 갖다 쓰겠다라는 뜻이고 우리가 이번 달 내내 요걸
159:07
Speaker A
공부할 거야. CN는 자, 그런 다음에 트레인 EV 그래 가지고 트레이닝하고 평가도 해. 어떤 기준에 의해서 이일 거거든요.
159:18
Speaker A
기준값이 들어오면 자 우리가 이걸 진짜 이게 함수의 제기적인 법이죠. 자 여기에 모델을 만들 건데 어디 이미 여기 함수로 만들었잖아.요 함수를 써서 얘를 GPU에 태우고 모델에 집어넣는 거죠. 그다음에 옵티마이저는 아까 배웠지만 웨이트 디케이죠. 처음에 학색 이제 웨이트를 좀 크게 줬다가 나중에
159:45
Speaker A
급격하게 내려갔다가 나중에 천천히 내려간다 이거잖아요. 모델에 갖고 있는 파라미터스 즉 WB를 조종할게. 그때 얘는 아주 작은 런트 값으로 어 러닝트를 주고 옵티마이저로서 얘는 그냥 세 번 반복한다는 거죠.
160:03
Speaker A
그 모델을 트레인해서 트레이닝 데이터에는 XY로 나눠주죠. 그 각각을 또 어 디바이스에다 설정하는 거예요. GP에 넣고 업데이트하고 옵티마이 처음에 제로 그래드해서 초기하고 자 이게 뭐예요? y이죠.요 x값을 집어넣어서 모델을 통과시키네.
160:28
Speaker A
y헤의 집값이 나오고 얘는 실제값이 나와서 델 두 개를 비교해서 라스 구하고 역정파하고 하나씩 옵티마이저 사용해서 미세 조정한다.
160:42
Speaker A
자, 그런 다음에 얘는 모델.2 하면 이제 평가용 모드였고 지금 막 얼마나 맞았는지 모르니까 컬렉트 0 전체 토탈은 0이에요.
160:53
Speaker A
초기하고 제일 중요한게 이거죠. 더 이상 그레디언트 훈련하는게 아니니까 with 토치노 그레드라는 명시를 한 다음에 더 이상 이제 그레디언트를 내가 만들지 않겠어? 그리고 테스트 데이터 써서 XY 만들고 그것도 둘 다 지표를 태우죠.
161:15
Speaker A
그다음에 자 이게 중요하죠. 모델에 통과된 애가 예측값이죠. 예측값 중에서 제일 큰 값, 확률값이 큰 그 인덱스를 우리가 예측값이라 하고 그 예측값 개냐 개면 0 고양이면 1 이거죠. 그렇게 해서 실제값이랑 비위에서 트리인 것만 그걸 다 더해서 화이썬 숫자로 만들어서 맞은 거니까
161:43
Speaker A
코렉트로 업데이트가 되겠죠. y 사이즈 배치 사이즈 사이즈 영은 배치 사이즈잖아요. 그러니까 개수 그걸 토탈에다가 더하면 되죠.
161:53
Speaker A
그래서 요걸 하시면 돌아갈 거예요. 자, 여기까지 이해하는 시간을 들어가 주세요. 아, 7 *하기 7이 뭐냐면 마지막에 지금 이거는 지금 자세히 몰라도 돼 있긴 해요. 아, C는 안 배워서 아까 뭐가 나온다 그랬죠? 요렇게 거치다 보면은 1초 앱이라는게 나오죠. 그게 7 *
162:24
Speaker A
7짜리가 나와요. 그리고 이제 이게 몇 개냐면 32장이 있다는 뜻이에요. 몇 장? 32장. 근데 얘를 다 1차원 배열로 해 가지고 보내야 되잖아요. 입력값으로.
162:38
Speaker A
그래서 다 곱해 주는 거죠. 1차원 79 그러면 병진님 이해되셨죠? 예. 자, 그러면은 전체 한번 쭉 보시기 바랍니다. 일단 지금 이거는 그런가요 하면 돼요. 이거 언제 배우냐면 CNN이 기초 안에를 먼저 하다 보니까 그래요.
163:05
Speaker A
여기에 배우고 10일차니까 다음 주 정도에 변해. 음. 오늘 수요일이죠. 봤죠. 어 목금 월화 예 다음 주에 다음 주부터 쭉 끝까지시는 자, 여기까지 다 이해되신 분들은 1번 눌러 주시기 바랍니다.
165:42
Speaker A
네. 이제 그다음에 이제 우리가 라벨 스무딩을 배우겠어요. 크로스 엔트로피 기억나시죠? 그때 라벨스무딩을 0.1만큼 주겠다 이거죠.
165:54
Speaker A
모델 과실을 어 방지하게 일반화 늘리기 위해서 그래서 원래 크리티어인데 LS 라벨 스미링을 하고 얘를 트레인 이벨에다가 넣고 애시스 한 거죠. 그러면 0하고 9까지에서 그 각각 숫자의 펜서값들을 다르게 임의적으로 크래스 웨이트를 다르게 준 거예요. 일부러 이해되시죠? 원래 다 1일 텐데 일부러 틀리게 주고
166:24
Speaker A
그다음에 토치 이거 사실 디폴트가 프로트 32죠. 배를 디바이스 설정해서 워츠를 만들어 주고요. 0 원래 숫자가 열까지 보이잖아요.
166:36
Speaker A
0부터 9까지 숫자 보리니까 그 클래스에다 틀리게 웨이트를 주겠다는 거예요. 그런 다음에 여기 만든 웨이트를요 크로스 엔트로피 라스의 웨이츠로 해서 크리테리엄 만들고 얘를 트레인 이별에다가 여기에 원래 그 라스 펑션이 들어오게끔 만들어 놨잖아요. 트레인 이변에 보시면 크리테리온 그래서 얘를 놓고 액시를 보겠다
167:03
Speaker A
하니까 이제음 좀 세이네요. M. 생의 거인데 요거 걸 동안 잠깐 보충 설명을 좀 드릴게요.
167:45
Speaker A
우리가 나벨스무인 공식 한번 여기 나오죠. 0.99 웨이트 C가 나오죠. C 요거잖아요.이 웨이트 준 거예요.
167:55
Speaker A
웨이트가 틀리게 돼 있으니까.요 요 비율 보고 요걸 이제 제일 많이 쓴다. 실제로는 0.98. 자,요 크래스 웨이트 있습니다. 요건 좀 잘 알아두시면 좋아요.
168:11
Speaker A
자, 이거 어떻게 하냐면 처음에 스무딩 공식 한번 보시면 어, 스무딩 공식은 라벨스무 그냥 이해만 하시면 되는데 이게 이제 클래스로 분류돼 있는 스무디 이렇게 돼 있어요.
168:37
Speaker A
곱하기 로그 이렇게 그래서요 k가 뭐냐면 열 개로 클래스 블루죠. 열 개. K는 개고요. 그다음에 강도 알파가 0.1 우리가 일반적으로 읽어 준다 그랬죠. 그래서 어떻게 하냐?이 YK를요 스무드 할 때 요건데요 YK 스무드라는 거 뭐냐?
169:09
Speaker A
우리 이제 교환에도 나왔지만 1 - 알파 + 클리스 알파 이거죠. 얘 0.1을 디폴트로 준다. 이거 얘는 0.1 그러면 yk의 0.9고 이제 여기는 0.1 k인데 k가 있으면 여기는 10이죠.
169:31
Speaker A
자, 이런 식으로 이제 계산이 되는 거예요. 그리고이 웨이티드 요거는 좀 공식이 복잡해요. 어, 복잡한데 그래서 저도 이제 지금 잠깐 보고 있는데음요 YK죠.
169:53
Speaker A
y의 어떤 인덱스 다음에 마이너스 a - a 곱하기 로그 프로티어 y에 대해서 이렇게 지금 어 크로스 엔트로피 공식이 되겠습니다.
170:22
Speaker A
그래서 눈으로만 그냥 한번 보세요. 어 그래서 가중치를 계산할 때 이게 어떻게 보면 n이거든요. w에 다 더한 거니까. 그렇죠? 웨이트가 이거잖아요. 요걸 다 더한 걸 n으로 나눈 거가 이식인 거죠.
170:40
Speaker A
그리고 그걸 이제 다 곱한 거 한 다음에 로그하는 거죠. 그지? 그래서 개념만 어 원리로 해서 왜 이렇게 가중치를 다 따로따로 준 다음에 그 가중치를 갖고 와서 크로스앤티를 돌려 가지고 한 거 그거 크리테리어 만들고 그 크리티얼 집어넣어서 만든게 나온 것이 웨이드
171:07
Speaker A
C이다. 여러분들이 어이 전체적인 절을 이해하시면 되겠습니다. 그래서 코드를요 코드를 좀 나중에 쓰시면 되는데 나중에 여러분 거에 맞춰 가지고요 가정치를 할 때 어떤게 좋을까 그걸 이제 AI랑 같이 얘기하시면 될 거예요. 내가 지금 이렇게 지금 나왔는데 여기에 가정치를 클래스별로 좀 줘야 되는데 적절한 방법이 뭐가
171:35
Speaker A
있어? 저도 그렇게 물어봐요. 그러면은 듣도 듣도 보지도 못했던 이상한 그런 방법들이 좀 나올 때가 있어요. 딜템 하는 거죠. 그래서 공부해 가지고 계속 적용해서 요즘에는 대학원 다 그렇게 온 거예요. 해서 어 그 방법론을 스스로 고만하 내가 필요하니까. 그런 다음에
171:59
Speaker A
그 웨이트를 설정하고 그러면은 이제 거기서 이제 방법론에 의해서 웨이트를 각각 가중치가 나올 거 아니에요.
172:06
Speaker A
여기다 그다음부터이 코드 그대로 쓰시면 되죠. 여기다 나열하고 그러면 보통 이렇게 열 가지까지 불교하지 않아요. 그렇죠? 어 시간도 없고 한 다섯 개 뭐 많이 해 봤죠 보니까 그러면은 다섯 개 정도의 웨이트를 틀리게 넣고요 코드 쓰고이 코드만 이해하고 설명할 수 있으면 되죠.
172:27
Speaker A
그렇죠? 자, 요거 이해하고 설명할 수 있겠죠? 자, 이해 한번 하는 시간 또 2분 드릴게요. 음.
172:40
Speaker A
그래서 여기를 좀 다르게 바꿔 보세요. 그 재밌어요. 어, 조금씩 치를 바꿔 봐 가지고 어떻게 나오나?
172:48
Speaker A
어 아까 뭐 그래서 제가 그랬지만 제일 많이 쓰고 빈번하게 쓰고 꼭 알아야 될 공식 그렇죠. 그런 것들은 기억하는게 낫죠. 간단한 것들은 어 우리 옛날에도 근의 공식을 외우고 있잖아요.
173:06
Speaker A
그죠? 그러니까 그런 것들을 외워야 되니까 이제 하는 거고 다른 공식들은 이게 어떻게 되는지 각각 공식이 의미하는 바만 이해하시면 돼요.
173:17
Speaker A
원리를 이해하시기 쉬우니까. 지금 어 원어님이 지금 하신 거 잠깐 봤는데 어떻게 가정치를 줄지 말지 변법은 거리 기반으로 보통해요.
176:45
Speaker A
그러니까 지금 KK 예측값들이 나오잖아요. 그러면은 평균 다시결로 이제 하는 방식도 있고 방법은 많은데요. 거리 기반 역수로 가정치를 줘요.
177:01
Speaker A
어, 웨이트를 할 때. 그러니까 내 테스트 데이터가 있고 다른 데이터 이웃하고 있는 어떤 데이터하고의 거리가 있을 거 아니에요. 그것끼리의 차이를 보고 그다음에 역수를 취해요. 어 그게 뭐냐면 이게 이게 KNN는 혹시 아세요?
177:31
Speaker A
이거 아시는 분 최 근접 최 근 이게 네이버거든요. 네이버 네이버 이걸 쓸게요. 그래서 얘는지도 학습이에요. K자가 들어가니까 왜냐면 있는 그대로 오거든요. 그냥 여러분이 지도학습법이에요.
177:58
Speaker A
그냥 뭐냐면 실제로 이렇게 어떤 것들이 이제 있어요. 근데이 중에 내가 K를 세 개씩 묶어 그러면은 이렇게 묶어 이렇게 묶어 근접한 애들끼리 묶잖아요.
178:14
Speaker A
이렇게 하는 방법에 이게 여러분들 그 운동에 때 요즘 또 하나요? 운동회 같은 경우 할 때 사회자가 이렇게 하다가 즐겁게 놀면서 노래를 부르며 랄라랄라 그러다 자네 명씩 모이세요 그러면은 친하지 않아도 갑자기 이리와 그래서 역살 잡고 끌고 오고 그러잖아요. 그렇죠? 어 걸칙
178:41
Speaker A
안 당하려고 그때 그러니까 뭐냐면 각 거리가 가까운 애 있잖아요. 그거 갖고 보는 거죠. 왜냐면 불균형이니까 보고 그때 그러니까 어떻게 하냐면 각각의 거리를 내가 이제 여기에서 어떤 x가 있으면 그 x와 다른 애가 이거 x1이라고 그러면 x2잖아요.
179:06
Speaker A
요렇게 해요. 역수를 취해 가지고 그걸 웨이트로 잡아요. 예. 그러니까 예. 3 뭐냐면 세 개 여기만큼이 3 정도 일반적으로 차이 나가면 1이 되는 거죠. 이런 식으로 하는데 이게 거리 차이가 없을 수 있잖아요. 그럼 0 나오잖아요.
179:25
Speaker A
그래서 여기에 엡실론이라고 해 가지고 아까 했죠. 아주 작은값 뭐 0점 요거 여러분이 설정하기 다름이에요. 2는 0.001 1 보통 이렇게 해요. 그래서 이렇게 두면 왜 제로디비전 방장이 어 오케이 어 그래서요 방법을 제일 많이 쓰긴 해요. 근데 방법이 여러 개가 있어요.
179:52
Speaker A
사실은 웨이트가 이것만이 아니라 그거는 이제 여러분들이 다른 어 찾아봐야 돼요. 저도 어 그죠.음 음 보통은 이걸로 많이 쓰긴 해요. 저도 이거는 기억이 나니까 가정 많이 쓰니까.음 사이키원에서 주어지는 것들이 많아서 저도 공식은 걱정 못해요. 왜냐면 사이키원에서 가우시안 코널이라고 있어요. 거
180:19
Speaker A
하는데 그것도 공식을 봐야 돼요. 저 뭐 저도 외울 수니까 그냥 코드로 치면 이제 그게 문제죠.
180:29
Speaker A
아우시안 코너이라고 있거든요. 여기 나오네. 어 그러면어요 왜 이따 이거 나오냐? 그죠? 어 근데 이쁘게 나온 거 없나? 어 요거 마스크 가우시안 코너리라고 있거든요.요 코드는 이거예요. 그냥 가우시안.
180:52
Speaker A
근데 여러분 봐도 외우 외우는게 정상일까요? 이렇게 생긴 거예요. 어, 코드가 어, 이렇게 생긴 내네요.
181:03
Speaker A
이게 공식이 왜 안 넘냐? 이렇게 가우시한 커널 방식으로 써요. 요거 케이사이죠. 코드는 이거든요. 이게 우리 이제 CB2 오픈 CBS 나와요. 어,이 함수를 쓸 수 있어요. 그냥 요렇게만 쓰니까 이러면 이제 한 개죠. 여러분이 정부다 나온 거야. 근데 이제 뭐냐면 잘 보세요.
181:26
Speaker A
가우시한 코너 하니까 뭐 뭐 생겼어요? 음. 가우시안 커너라니까 이게 뭐예요? 뭐같이 생겼어요? 산이요? 그죠?
181:41
Speaker A
예. 한 형님 일죠. 전기분포. 예. 산처럼 생기긴 했는데 예. 산이긴 하죠. 예. 근데 이제 정규 분포 여러분 가우스 하면은요. 정규 분포 생각하시면 돼요. 알았죠? 가우시안 이렇게 쓰잖아요. 통계에서는 전규 본포예요. 알았죠? 어, 가우시안수.
182:02
Speaker A
어, 예. 그래서 가우시안 많이 써요. 음. 그래서 얘는 이런 형태고 그래서요 형태로 나와요. 요게 50 없나?
182:23
Speaker A
요거네요. 근데 여기 요거네요. 아까 익스포넨셜 이렇게 돼 있잖아요. 요거예요.요 두 개의 차이잖아요. x하고 x칸의 그 거리 차이는 내가 웨이트를 만들어 주는 거예요. 여기에 요거 보시면 정규 부포식 공식하고 비슷해요. 2의 시그마의 제곱 분상이죠. 여기 나눠 주는 거죠. 각각 차이를 제곱해서
182:47
Speaker A
마이너스하고 익스포넨셜 이해되시죠? 그래서 여기 웨이트를 만들 이게 웨이트예요. 요게 크래스의 한 점의 웨이트. 예.
183:06
Speaker A
그래서 요번법도 많이 써요. 가우시한 건원 제가 기억하는 건 자 그러면은 그다음 걸로 넘어가도 되나요? 다 이해하셨어요? 질문이 없으면 이해했다고 봐도 되죠?
183:32
Speaker A
네. 좋습니다. 어 라벨 스무딩 한 번 더 할 거니까 여기 코드 지금 안 좋는데 할 3번이 라벨 스무딩인가 4번인가 그럴까요?
183:42
Speaker A
잠깐만 몇 번이지? 예, 3번이 라베스맨드 또 있으니까 그때 자세하게 할게요. 자, 두 번째 끝까지 돌려보고 그다음에 이제 펴 볼게요. 요번 제일 중요한 큐버라스예요.
184:02
Speaker A
자, 여기 보시면 토치 유네트워크 옵티마이저 넘파이 PLT 자 이거 뭐예요? 데이터셋 만들어 달라는 거죠. 뭐 회기 분석하기 설기 위해서 make리 reg션 그다음에 우리 훈련용 데이터 테스트했다 그다음에 정교화하기 위해서 표준화 공식이죠.
184:21
Speaker A
스탠더드 스케일러 그래서 시세가 고정하고요. 난수 생성하니까 자 이거예요. 얘가 세 가지였죠. 예측값 진짜 실제값 아까 예제 나왔던 거죠.
184:35
Speaker A
어 예측값 그래서 얘를 미스케어드 에러 라스를 해서 MS 라스하고 얘를 갖고 예측값과 실제값을 비교하면 MS 라스가 나오죠. MA는요 ma 라스가 없어요. L1 라스예요.
184:52
Speaker A
알았죠? L1 규제 할 때 나왔죠. L1. 어 그게 자체가 y - y 해시거든요. 그걸 절댓값 씌운 거니까 이렇게 얘네가 정의해서 에러라스라고 하고 ma 라스 한 다음에 여기에 h값과 시체값을 넣면 되죠.
185:10
Speaker A
큐보라스는 쉬워요. 우리 공식은 아까도 봤지만 델댓값으로 결정하는데 델댓값만 옵션으로 주면 되죠. 그래서 큐브라스는 델타 1.0을 기준으로 하니까 얘를 갖고 해요.
185:27
Speaker A
요거 막 정의하고 얘 보하면 되잖아요. 그리고 얘 넣으면 되는데 이거를 안 쓴다. 나 똑당해요.
185:35
Speaker A
알았죠? 어 알았어요. 이걸 써야죠. 로봇 공학하시는 분들은. 그래서 MSC, MA, 휴보러스 세 가지를 다해서 제가 여러분에게 요구하는 거는 표로 정리하는 무슨 말인지 알겠죠? 휴버. 그래서 여기에 각각의 5차를 딱 정리하면 된다 이거야. 여기까지 이해되세요?
186:10
Speaker A
음. 어, 그래서 지금 여기 나오잖아요. 그죠? MSCM 이렇게. 그래서 h값은 Y프레디의 넘파이로 바꿨죠. 잡봐요. 여러분들이 지금요 앞에는 어 지금 다 텐서잖아요.
186:33
Speaker A
그 텐서로 그냥 하면 안 돼요. 텐서 나와요. 그러니까 내가 수치 계산이나 이런 건 CPU에서 하는 거잖아요.
186:41
Speaker A
그러니까이 원래 넘파이 자체가 파이썬 그죠? 일반적인 CPU에서 만들어졌기 때문에 돌려 줘야 돼요. 넘파이로 돌려 줘야 돼요. 그래서 요를 빼고 뺀 것도 넘파이 ms의 밸류에서 아이템 파이썬 숫자로 바꿔서 소수점 네짜리까지 얘도 소수점 네짜짜리까지 얘가 진짜 맞는지 수동으로 계산해 봐서 얘는 어떻게 계산하면 에러라고
187:12
Speaker A
한 애를 얘를 에러 쓰라고 했잖아요.요요 요요 에러 난 거를 제곱해서 평균 내면 되죠. 얘는 얘를 절댓값 씌운 다음에 평균내면 되죠.
187:25
Speaker A
그래서 계산해 보니까 더라. 봐봐요. mse는 실제 2차인 나고 -1차고 5차이 5잖아요. 근데 얘는 전체하면 10이 나오고요.
187:45
Speaker A
MA는 2.67 거의 다섯 배지. 휴보는 2.16 5차가 제일 적은 걸로 나오죠. 지금 예. 제 휴보라스가 나왔으니까 잠깐 이해를 돕기 위해서 아까 했지만 어 휴보라스의 공식이 어디느냐 이렇게 나와요. 라스 있거든요.
188:26
Speaker A
그래서 이게 뭐냐면 if이 에러가 당신 라스가 델타까보다 작을 때 요거는 아까 우리 했던 거야.
188:37
Speaker A
이거죠. 얘를 지금 집어넣으면 쉽죠? 1이었잖아 지금. 1 그래서 2일 때 1 그렇죠? 0.5일 때 이렇게 생각하시면 되죠.
188:49
Speaker A
그럴 때 여기 넣으면 얘는 제곱하는 ms처럼 하고 차가 크면 ma로 해라 이거죠. 그러면은 이제 극단적으로 한번 해 볼까요? 어 우리가 얘를 좀 계산을 평행하기 위해서 얘를 1로 놓고요 2를 원래 0.5 이렇게 하는데 -1로 하는게 계산이 편하겠다.
189:50
Speaker A
-1로 넣으면 마. 왜냐면 요거 계산하기 위해서 -1의 제곱하면 1이고 1/이니까 1 나오잖아요. 그렇죠? 그러니까 0.5가 가 나오죠.
190:05
Speaker A
어 얘는 이제 MA MSE처럼 하는 거죠. 이건 MSE처럼 얘는 얘도 얘는 이제 어 계산을 하려면 얘를 5를 줄게요. 5 델타 1이죠. 1 * 5 2의 25 이렇게 하시면 되겠다.
190:26
Speaker A
그러면 2의 10점 계산 이상한데. 아 4.5가 남아 있네. 어렵겠지. 1 곱하기 2가 5죠. - 1의 동일한 거를 정일할 때요. 얘를 써요. 요거 델타하고 동 1이라고 했죠. MS 화님 답변됐죠? 어, 왜냐면은 제가 그랬잖아요. 무조건 원래는 제일 좋은 건 MS니까.
191:18
Speaker A
그렇죠? MS를 쓰는데 5차가 클 때는 MA를 쓰자. 그게 장점. MA를 버리기 힘드니까. 그러니까 얘도 원칙이 들어가 있어요.
191:29
Speaker A
뭐예요? 웬만하면 기준은 MSE를 가대 5차가 크면은 제곱을 하면 너무 커 버리니까 MA 방식으로 가자.
191:37
Speaker A
이거예요. 어 됐죠? 예. 어 지금 인재 님이 한영님 거 도와주신 거 같은데 맞는데 어 여러분 저런 착한 친구 모습에 전 감동에서 1점을 드리고 싶어요. 괜찮죠?
191:59
Speaker A
음재님 1점. 예. 저희 친구의 답변을 도와주면 좋아요. 피업 튜토링. 어, 이게 비대면이 또 그런게 있더라고요.
192:11
Speaker A
저번에 보니까 되게 방송하고요. 그죠? 어. 아, 당신이 그 병직님이었어요. 아, 당신이 그 인간 정무이 이제 이렇게 되는 거죠.
192:23
Speaker A
반가운 거죠. 와, 서로 돕고 그러니까 어, 그래 이제 자, 네. 보시고 이상치가 있을 때 손실 함수로 볼게요. 한번 정선 데이터가 있는데 요거 원래 정상으로 이렇게 우리가 그냥 깔끔하게 10 20 30 40 50 써요.
192:48
Speaker A
그죠? 거기에 자 이렇게 돼 있고 자 여기에 노멀라이즈한 정상 예측은 이거고요. 11 19 31 52 다시 사실 이렇게 나와야 되죠. 깔끔하게는 예측치는 노멀. 근데 얘는 이게 정상 데이터고 얘가 예측은 이렇게 있고 여기에 키한에 하나 100 이상치가 있어요.
193:16
Speaker A
자 그러면 왜 이걸 써야 되냐 보면 Y로 위드 아웃라인이 텐서니까 다 넘어 준 거죠. 실제값. 예. 그런 다음에 그 일단 돌려 볼게요.
193:28
Speaker A
그러면은요 밑에 가면 요렇게 나오죠. 실제 모르 적죠. 그러면 MS를 하면 그냥 MS의 와이프레드 노멀과 Y2 with 아웃라이어 와이프레드 노말과 와트루드 아웃라이어 그다음에 휴버라스 그 두 개잖아요. 예측과 실제 요거 갖고 소수점 네지짜리까지 찍어 본 거예요.
193:55
Speaker A
그러면 이렇게 나와요. ms나 ma나 똑같이 1이고요. 큐보라스 하면 두 개를 반영해서 0.5만 여러분이 딱 봐도 그냥 해도 휴보라스가 5차 적을 수니까 이거 어느 여러분 휴보라스 쏴야 되겠죠 이렇게 했는데도 불구하고 아 누가 봐도 절반이 감소되잖아요 차가 그렇죠 써야 돼요 말아야겠어요
194:24
Speaker A
써야겠죠 그러니까 거의 일반적으로는 제가 돌려본 거에는 휴보라스가 제일 적게 나왔어 일반적으로 조금 어 장점만 모았잖아요.
194:37
Speaker A
그죠? 어 그러니까 자 그런데이 상치를 포함해요. 하나가 지금 뜬금만게 이거 뭐냐면 치다가 좋은 거야.
194:51
Speaker A
10이라고 쳐야 되는데 100이라고 거야. 제가 이런 적이 한번 있었어요. 잘릴 뻔했어요. 그래서 이제 처음에 아스베가스에서 일을 하는데 뭐였냐면 피클럭이라고 거기 다 카지노잖아요. 그러니까 거기 이제 어 알바 알바처럼 하는게 뭐냐면 그 카시노 안에 돈 바꿔 주는 애가 있어요. 앉아 가지고 그래 가지고
195:17
Speaker A
한마디로 호텔에 호텔에서 돈 꺼 주는 거예요. 그러면 이제 발행해 가지고 사인 받아요. 이렇게 슈표처럼 이렇게 하고 이제 마감을 하잖아요.
195:27
Speaker A
새벽 2시에 마감해요.이 파지노는 24시간 도재가지만이 1 매출 계산해야 되니까. 근데 파지노는 어떤 문제가 있냐면요 칩잖아요. 도박하는 그 칩도 어 그 돈이잖아요. 100불 실제 돈으로 바꿔 주니까. 그니까 그것도 카운팅을 해요. 그러면 여기 이제 그 매니저들이 이렇게 다 이렇게 계산해요. 각 테이블에 칩 몇 개
195:56
Speaker A
있나? 그럼 제가 그걸 입력해야 되거든요. 아주 단순하죠. 그래서 제가 그때 새벽 3시니까 졸리잖아요. 모르고 자꾸 틀리대. 마감 작업을 했는데 수치가 갑자기 이상하대.
196:09
Speaker A
알고봤더니 제가 졸다가 0을 하나 더 줬어요. 그랬더니 어 마감이 한시간 늘어진 적이 있어요. 내가이 졸다가 영을 하나 있잖아. 그죠?
196:22
Speaker A
그래서 이거 분명히 이렇게 이상치 입력이 잘못될 수 있어요. 제가 이거 그냥 말하는게 아니라 실제로 많이 일어나요. 서문지 같은 거. 상문제 같은 거 내가 다 조사할 수 없으니까 인구 센서스 같은 거 그때 교육을 잘시켜야 되는게 입력을 잘못 입력하면 이게 이제
196:43
Speaker A
그 입력하는 사람들이 입력을 잘못하면 수치가 틀릴 이상치가 나올 수가 있거든요. 그 중에 하나예요. 음.
196:55
Speaker A
오버피팅이요. 왜 그렇게 생각하셨어요? 난 제 궁금해 가지고. 왜 오버피팅이 날 거라고 생각했어요? 아니 괜찮아요.
197:26
Speaker A
음. 저번에 5차가 작을 때 오버피팅이 나눈다고요? 아, 5차가 작을 때요. 5피팅은 5차가 작은 거보다는 어떤 한 곳에를 가족합의 정의는 5차보다는 어, 그건 자동으로 방지된 건 아니고 어떻게 했어요? 오피팅 자체의 개념이 한 곳을 계속 반복돼서 똑같은 거를 학습하면은 과족이 일어나는 거죠. 그
198:04
Speaker A
변수가 많으면 왜냐면 변수가 많다는 건 설명력이 높아지는다는 뜻이잖아요. 여러분 제가 어떤 걸 그림 그리거나 할 때 디테일하게 그냥 여러분이 이거랑 같은 거예요. 어 그죠? 그냥 이래도 사람이잖아요.
198:32
Speaker A
제가 여러분들이 일단 인식하잖아요. 간단하게 그려도. 어, 근데 실제로는 사람이 이렇게만 있냐고요. 사람이 눈썹만 있고 눈도 없고 코 있고 입 입도 없고 이런데 아니잖아요. 단순화시켰잖아요.
198:49
Speaker A
어, 그런데도 이제 인식하면 되는 건데 되게 이제 디테일하게 뭐 이것도 변수죠. 사람의 얼굴이 어떻게 구성돼 있어? 여기 점 있어.
199:02
Speaker A
그러면 이제 점 없으면 사람이 없는 거예요. 사람이 아닌 거야.이 이렇게 점 있는 것만 계속 공부 해 가지고 이건 사람이야 하잖아요.
199:11
Speaker A
그러면 AI는 점이 없으면 이제 다른 걸로 인식하는 거야. 그렇죠? 과속합이에요. 어 그래서음 근데 이제 아까 말한 거는 이제 5차보다는 어 기왕 하면 이상치 많을 때 그 이상치에 대한 과적합을 방지하는데 된 효과 있어요.
199:45
Speaker A
그렇죠? 그래서 그렇게 알면 좋을 것 같아요. 그죠? 어 왜냐면 아까 그러니까 여러분들이 아 히님 이렇게 정의하세요. 어 과학은 뭐 이걸로 방지하는 거 아니고요. 얘는 키워드로 아시면 돼요. 요거하고 얘하고에 차이가 있는데이 미식 민 평균으로 하는 애의 가장 큰 단점이
200:13
Speaker A
이상치거든요. 이해되시죠? 그래서 키워드를 얘는 이상치로 보세요. 어 그래서 못 차가나 이상치로 보시고 이상치에 강건한 모델이 얘예요. 근데 얘는 미분이 안 돼서 집론이 못 써 먹어. 그러니까 얘를 썼다. 이렇게 정의를 하시면 되겠어요. 오케이.
200:39
Speaker A
그래서 이상치 때문에 나타나는 과적합을 방지하는 데는 효과가 있어. 오케이. 그러니까 과합이라고만 하면 좀 볼까?
200:50
Speaker A
어 과적합은 이건 옛날부터도 그랬거든요. 그걸 자세히 설명 안 해줬어. 통기 요포 그냥 옛날에 이제 분석하는 도구 중에 바이슨게 SPS가 있고 구조 방정식이라고 해서 전체 구조를 보는 그러니까이 하나씩에는 변수의 접근에서 뭐이 변수라 이거잖아요. x1 우리 맛집 어제 했던 x3요 각각이
201:20
Speaker A
얼마나이 y를 주는데 영향을 끼치나 각각 그러면 얜 0.7이요 얜 0.2요 0.1이요. 그렇죠? 요거 x1이 있어요. x1, x2, x3. 이렇게 회기식을 하는게 이제 그전에 이패스로 회계 분석 돌렸을 때 관심하나 변수가 아니라 전체 모델의 구조 있죠? 얘가 이렇게 가고 지금 딥러닝
201:49
Speaker A
하는 것처럼 이렇게 구조론으로 가는게 에이모스라는게 있어요. 이때 통계 교수님들이 맨날 그냥 간단하게 하는게 변수가 이런 걸 잘 안 설명했어요. 변수가 증가하면 이런 변수가 많아지면 설명력은 높아져요. 그건 사실이에요.
202:06
Speaker A
사실. 그러니까 지금 제가 이제 직관적으로 이걸 설명하는 거예요. 여러분들이 제가 이게 뭐죠? 아 그러면은 이걸 사람이라고 하기는 쉽지 않죠. 근데 좀 이렇게 그면 사람이고 그냥 진짜 칼리나 사진 갖다 대면 누가 봐도 사진이죠. 사람이죠.
202:30
Speaker A
그러니까 설명은 변수가 많아지면 좋아질 수밖에 없어요. 대신 모델이 복잡해지고요. 데이터가 적으면 특히 데이터가 적어지면 어떤 문제가 생기냐면 과적하게 일어나요.
202:45
Speaker A
어 그래서 그 문제를 해결해요. 예. 그래서 가족합을 방지하는 거. 왜냐면 가족한 문제는음 뭐 항상 나오는 거니까. 예. 자, 그러면 이제 여기로 가서 이상치가 있었대요. 이상치가 포함되 있죠.
203:03
Speaker A
나머지는 아웃라이어가 이때 MSCMA 휴법을 보시면 보세요.요 얘한 얘 때문에 60으로 늘어났죠. 당연히 그때 MSE 보세요. 난리 났어요.
203:20
Speaker A
아무리 페널티에 강조하지만 60인데 720배의 패널티를 주는 거야. 그렇죠? 어, 가중 처벌 다 접벌 다 하고 있어. 진짜 가중 처벌. 그죠?
203:35
Speaker A
근데 나머지는 있는 그대로잖아요. Ma 휴버도 MA랑 지금 결과로 나오잖아. 똑같이 쓰죠. 거의 비슷하죠. 그렇죠? 그런데도 그런데도 불구하고 12.3이에요.
203:52
Speaker A
3이에요. 얘보다 썩어졌죠. 자, 그러면은 MA는 어차피 딥에 못 써 먹는데 큐보를 쓰는 순간 MA보다 강건하다는 MA보다도 더 좋아요. 휴보 막 쓰고 싶죠.
204:14
Speaker A
그렇죠? 써야겠죠? 아, 분명히 혹시 그럴 수도 있 아니면 벌써 6기부터 나왔을 수도 있어서 그 모르겠는데 분명히 여러분이 휴보라스 하면 저 휴보라스가 뭐예요 하고 물는 사람도 있을 수도 있어요. 실제로.
204:32
Speaker A
어, 그래서 요게 뭐예요? 노멀보다 아웃라이어가 있을 때 몇 배냐 이렇게 지금 찍어 달라고 그랬더니 아 그랬더니 MS는 어찌됐든이 상체 매우 민감하다는 걸 볼 수 있고요. 제곱 때문에 페널티를 주는 건 좋은데 너무 심하잖아요. 왜곡되는 거예요. 그래서 얘를 루트를 해요.
204:56
Speaker A
사실은 루트를 써서 하죠. 자 그러면은 어,요 문제가 있어서 스퀘어로트라는 걸 써서 어, 여러분들이 요걸 좀 바꿔 줘요.
205:33
Speaker A
자, 그러면은 지금 여기 나온게 기형 찍었으니까 어, 요거잖아요. 어 MSC MS 아웃라이어 아이템 요거 요거죠.
205:54
Speaker A
여기 한번 써 볼게요. 요거죠. 720배가 나왔잖아요. 얘를 자 템프라고 한번 넣어 보세요. 왜냐면 지금 이게 여러분들이 펜다스 안 배워 가지고 얘는 지금 720이에요.
206:30
Speaker A
720.7이 79이 정도 되네요. 그러면은 이제 넘파이에서 SQRT 스퀘어 루트를 쓰면 돼요. 그래서 지금 MAS 아웃라인 탭 뭐 이거 자동 계선 내네요. 어 26점 틀리게이 나오네.
207:07
Speaker A
이렇게 요게 RMS예요. 일부러 한번 더 쳐 본 거예요. 어. 즉 이거는 우리가 이제 MS고 제가 루트를 씌우면 돼요. 26.8.
207:33
Speaker A
왜냐면 이게 너무 가족질이 크니까 올해 거기 있던 거를 뻥튀해서 제곱했다가 다 더해서 n으로 나눈 걔를 루트를 씌우는 거예요. 그래서 플러스만 하는게 RMS죠. 그전에이 RMS를 많이 썼어요. 근데 큐보라스 생긴 다음부터는 RMS를 잘 아 쓰더라고요. 실무에서 예. 이것보다 두 배 정도가
207:59
Speaker A
적어져요. 이해되시죠? 어 그래서 오히려 비교하는 용도로만 많이 했어요. 원래는 실무에서 아ms를 정말 많이 써요. 그렇죠? 왜냐면 얘는 기본적으로 MS를 써서 결과를 보고이 너무 외곡이 심하잖아요. 그러니까 R 아니면 스퀘어를 해 가지고 RMS를 썼거든요. 그래 지금은 그렇게 한다.
208:32
Speaker A
전체적으로 이해하는 시간 어 2분 드릴게요. 특히 조심해야 될게 다시 말하지만 요게 처음에 주어진 데이터가 텐트로 돼 있으면 계산하려면 반드시 넘파이로 바꿔 줘야 돼요.
208:46
Speaker A
알았죠? 넘파이나 아이템 해 가지고 파이 숫자로 바꿔 줘야 됩니다. 알았죠? 어, 그리고 자꾸 왔다 갔다를 좀 잘 연습하셔야 돼요.
208:54
Speaker A
그래서 지금 저처럼 다치실 필요는 없는데 보시고 궁금하면 이렇게 코드를 한번 쳐보는 시간을 좀 갔을게요.
209:02
Speaker A
어, 3번 드릴게요.요 세 개는 여러분이 보고서 쓸 때 많이 써요. 진짜 어, 회기 분석에, 예측 모델에 디폴트예요. 거기다 메이프까지 자, 다 되신 분들은 1번을 쳐 주세요.
212:03
Speaker A
예. 왜냐면은 MS랑 MA랑 그죠? 휴보라스 어떤 식으로 이제 동작하고 이해하라는 거예요. 음. 음. 자 그다음에 어 우리가 손실 함수 별 수학스 비교를 할게요. 이제 실제 한번 데이터를 만들어 보자. 이거예요.
212:27
Speaker A
어, 고정이로 500개 데이터를 만들 거고 변수는 10 개인데 노이즈를 실제로 좀 줘는 거예요. 이겠죠? 현실적으로 노이즈가 있을 수밖에 없으니 한 열 개 정도 노이즈를 네가 알아서 랜덤하게 만들어 주는 거 그죠? 그래서 거기서 4두 번째 있는 애를 가져와서 xy를 만들어 줘. 활동해 줘.
212:50
Speaker A
자, 그래서 좀 생각보다 큰 거죠. 데이터의 10%면은 노이즈가 큰 거죠. 이상치 추가하는 거예요. 그래서 여기에 뭐 낸 Y 하면 전체 될 수 있잖아요. 그게 0.1만큼을 넘버 오브 아웃라이어스라고 한 거죠.
213:08
Speaker A
자, 그런 다음에 이상치를 넣었어요. 이거 현실적인 노이징 거고요. 얘는 아웃라이어예요. 이상치예요. 그래서 넘파이 랜덤의 초이스 이거는 이제 여러분이 뭐 로또 아니면은 레플이라고 하죠. 여러분 뭐 어떤 동문에나 어디 가면은 뭐 이렇게 뽑기 해가지고 선물 주잖아요. 마지막에. 그까 그런 거
213:34
Speaker A
할 때서 많이 쓰죠. 넌 파일 랜덤 주스. 그래서 하나 요쪽에서 여러분이 선택하는 거죠. 전체에 낸 y가 몇 개요? 우리는 알아요.
213:48
Speaker A
500개죠. 500개 중에 지금 10%니까 50개겠죠? 500개에서 50개를 거기 이제 랜덤하게 뽑으라는 거죠. 그리고 리플레이스 홀스 해야죠. 왜?
214:04
Speaker A
트루 하면은 아예 원본을 성상시키니까. 그래서 아웃라이어 인다이스라고 할게요. 예.이 상치애들이에요. 그다음 그래서요 전체 어 얘를 하나 만들어 주는 거죠.
214:17
Speaker A
y값에 있는 아웃라이어 인다시스에요 얘다가 얘다가 또 노이즈를 하나 준 거야. 넌파이 랜덤의 랜드이죠. 노멀라이즈죠. 그래서 아웃라이어스에다가 곱하기 50만큼 아주 매우 큰 어 노이즈를 준 거예요.
214:37
Speaker A
그다음에 데이터를 하겠습니다. 트레인테 스프릿해서 XY하고 테스트 사이즈 0.2이니까 80%는 트렌디 되죠. 랜덤 40 하고 트레인 테스트 트레인 테스트 나는 거죠. 그다음에 테스트 데이터 분할 정규화를 해야죠.
214:56
Speaker A
x - x바 나누기 시그마 시그마 해서 스케일러를 만들고 이제 여러분 기억나시죠? 트레인 데이터는 훈련을 해야 되니까 피트 기억나시죠? 피 트랜스폼을 하고 그다음에 얘는 그냥 원래 있던 값을 0점 조절했으니까 이동해야죠. 그러니까 트랜스포만 해야죠. 테스트 베타는 트랜스포 이게 이제 까먹는 경우가 있어요. 여러분들
215:22
Speaker A
보면 테스트 데이터는 거드는게 아니야. 그러니까 그냥 건들면 건들지 않으면 잡봐요. 얘는 원래 예를 들어서 트레인 데이터는 20 뭐 30 40 이런 숫자였다가 트렌테스프리 하는 바람에 요거 뭐예요? 훈련도 하고 그다음에 정규화 과정을 거쳐 가지고 마이너스 뭐 0.3 3 아니 뭐 이런 식으로 이제
215:49
Speaker A
숫자가 바뀌었는데 얘는 비교 대상인 얘는 원래대로 20 30 하면 안 되죠. 얘도 바꿔야지. 바꾸긴 바꾸는데 얘는 정규화만 바꾸는 거지.
216:01
Speaker A
훈련을 하면 안 된다는 거예요. 얘 훈련이고. 그래서 트레인 데이터, 테스트 데이터를 이렇게 바꿔 줘야 돼요.
216:11
Speaker A
자, 이렇게 바꾼게 여기까지가 머신러닝에서 흔히 하는 데이터 분할 종교예요. 그런 다음에 여기서부터 이제 분석이 들어가는데 우리는 딥러닝을 하니까 포트 텐스로 바꿔 주는 거죠. 텐스로 바꿔 줘요. 그래서 얘는 텐스로 바꿔 주고 얘는 그 상 형상 똑같이 왜 특히 토치는 입력값으로 매트릭스 구조 2차
216:40
Speaker A
구조를 기대하고 있어요. 그러니까 어스키지 1을 해 가지고 형태를 맞춰 줘요. 테스트레이터 맞춰 주고요. 그래서 트레인에 셰프 찍고 얘는 넘버 오브 아웃라이언였죠. 했더니 400개 중에 열개 그렇죠. 열 개의 지금 어 컬럼 한마디로 속성 정보가 있는 거죠. 그다음에 50G 이상치 회계
217:07
Speaker A
모델을 한번 만들어 볼게요. 아직 자세는 안 배웠는데 자 간단하죠. 리그레션 모델하고 뉴럴 네트워크의 모드를 가져와서 생성자를 만들고 초기화해요. 상속받아서.
217:25
Speaker A
자, 네트워크라고 모델이죠. 만들 건데 어떻게 만드냐? 하나씩 싹했다는 거. 시컨실로. 우리 지금 알는게 서송 정보가 열 개죠. 열개가 들어와서 64개로 가고 레로 통과시킨 다음에 64개가 32개 가고 레고 32개가 하나로 가는 거죠. 어렵지 않죠?
217:49
Speaker A
자, 그런 다음에 얘를 통과시키면 되죠. 자, 그래서 세 가지를 이제 키 밸류로 한 거예요.
217:58
Speaker A
이제 라스 펑션에 MS 하면요 값이 나올 거고 예. 라스 펑션스의 MA로 우리 키로 접근하면 에런스 MA가 나올 거고 라스 펑션스의 휴버라고 치면 우리가 배웠던 델타가 1 기본값인 휴버라스 계산한 값이 나올 거 아니에요. 밸류값이.
218:20
Speaker A
그래서 리트를 실제로 보시면 요런 요런 코드들을 많이 봐셔야 돼요. 우리가 리스트로만 읽을 수 있다고요. 근데 쪽잖아요. 다 키로 왜 제이슨니까 웹상.
218:35
Speaker A
그러니까 실제로 빈 딕셔너리가 많이 나와요. 왜? 제이슨 어 한 파이썬에서는 100% 호환이 되죠. 뭐로? 딕셔널리 P밸니까.
218:53
Speaker A
그래서 요건 빈 딕셔너리로 리트를 만들어서 뭐예요? 라스 펑션에 자 아이템하고 아이템지하고 헷갈리면 안 돼. 이건 파이썬이죠. 얘는 키밸류 가죠. 이런 라스 네이먼과 크리테이요.
219:09
Speaker A
그런 다음에 리그레이션이 모델 자체를 그렇죠.이 이 클래스 자체를 인스턴스죠. 모델을 하고 얘를 얘 파라미터 더블빅 있죠. 아담으로 옵티마이저 사서 러닝 0.01로 최적하게 만들고 트레인 나스는 리스트 형식으로 해서 담겠다는 거죠. 몇 번? 100번.
219:40
Speaker A
그래서 전체 100번에 이거 돌려 넣어야겠다. 100번이라. 어, 한 번씩 돌면서 처음에 선언하는 거야. 모델적 트레이닝이라고.
219:51
Speaker A
그런 다음에 초기하고 금방 끝났네. 간단해서. 어, 그다음에 여기 트레인 데이터 넣어서 예측값 만들고 예측값과 텐서끼리니까 텐서로 비교해야죠.
220:04
Speaker A
와트리 텐서를 크리티리 넣어서 라스하고 백워드 그다음에 스텝 역전파 미세주죠. 그래 트레이너스를 라스 아이템 파이 숫자를 바꾼 거를 여기다가 업데이트하고 테스트 데이터니까 평가형 모드로 우리가 선호하고 모델. 점점2 반드시 기억하는게 위드 토치 노그레드죠.
220:34
Speaker A
요 테스트 데이터의 텐서를 모델에 넣어서 테스트 프레딕션 즉 예측값 만들고 그 예측값들과 실제값 테스트 데이터의 y 테스트 값을 미니스케일 에러 에러 휴버 그래서 테스트 MS 테스트 MA 테스트 휴보에 넣고 반드시 이게 파이썬 숫자로 바꿔 줘야죠.
220:59
Speaker A
그런 다음에 여기 키웠죠. 리절츠의 라스트임 라스네임이 키예요. 그러면 얘를 어떤 식으로 밸류값으로 저장하냐면 딕션을 봤는데 트레이너스는 트레이너스 테스트 MS는 테스트 테스트 테스트 휴버 프레딕션 그래서 요게 뭐예요? 트레이 나사면 쭉 나올 텐데 그중에 제일 마지막값 최종 훈련 손실이죠. 우리가 원하는게
221:26
Speaker A
이거죠. 가장 많이 떨어졌었으니까 라스값이 테스트 MS 테스트 MA를 돌리니까 금방 나오네요. 최종 훈련식 MSE는 132고요.
221:39
Speaker A
MA는 6이에요. 자, 너무 심하죠? 실제 값은 6.8인데 아무리 페널티를 줘도 그렇지. 132를 줬어요. 어, 그래서 휴보라스로 하니까 5 6.3으로 오히려 더 적죠.
221:57
Speaker A
그러면서도 미분이 돼요. 자, 결과 시각화를 해야겠죠? 서플라스로 2니까네 개가 되어지겠네요. 그래서 첫 번째 거를 axe라고 할 거고 얘는 컬러를 지정했고 집합시용하면 리트 아이템s 얘가 요렇게 가죠. 튜플 키 밸류가 라스 네카 리트 컬러는 여기 세 중에 하나씩 하나씩 도겠죠.
222:34
Speaker A
그래서요 X축에는 이름을 리트 트레인스 하고 라벨은 라스네임 그리고 선두게 컬러 우리 설정 아니고 돌아가면서 나올 거고 X축에는 F이 훈련이죠. 박스 훈련한 횟수 다음 트레이너스가 어떻게 바꾸나?
223:03
Speaker A
그래서 비교하겠다 이거죠. 폰트 사이즈 10으로 레전 범리 만들고 그리고도 약간 불투명도잖아요. 어 0.3을 해서 보여 준다 이거죠.
223:16
Speaker A
그다음 테스트 성능이에요. 두 번째 그림은이 이쪽이죠. MA를 그리 있다는 거죠. 자, 보시면 리절치에 키하면 키값만 쭉 나오죠. 걔를 리스트로 묶어요. 라스트 네임이라 하고. 자, 이런 걸 잘해야죠.
223:33
Speaker A
라스트네임에서 하나씩 그 라스트 네임이 하나씩 나오겠죠? 손실의 이름이 거기에서 우리가 리트 네임에 가서 그 안에 테스트 MA가 있었죠. 키에 접근하니까. 그 값들을 다 리스트로 묶어서 테스트 MAS라고 하고 그래프를 되겠다는 거죠.
223:54
Speaker A
X2 얘는 이름이 라스트 네임이고 얘는 테스트 컬러는 우리 설정된 컬러 그다음에 블랙 그래서 빠즈 하고 y축에 이러면 테스트 MA 어 테스트 MA를 비교하겠다.
224:08
Speaker A
그래서 값 표시하는 거야. 얘는 집합수럽 마하고 테스트 MA 해 가지고 하나씩 가겠죠. 바하고 해로 빠프는데 원래 빠가 갖고 있는 겟하이트 크기 그걸 하이트라고 하고 텍스트는 외에서 저번에도 똑같죠 코 보면 똑같아요.
224:29
Speaker A
얘는 센터 가운데 놓고 가운데 정렬하고 평으로는 가운데 정렬 수식으로는 아래 정렬 그래서 그림을 된 거죠.
224:41
Speaker A
MA 모델의 직업을 돌리시면음요 두 개를 일단 먼저 볼까요? 뭐 얘가 지금 이렇게 됐으니까 여기다가 plt 쇼하자.
225:04
Speaker A
잘 나오죠? 자, MAC 보면 난리 났죠. 휴버는 안정적으로 가요. 그냥 원래 있는 값 그대로 가니까 테스트 MS 테스트 데이터가 제일 중요해요. 항상 데이터버스 갈 때는 새로운 애가 도았을 때 잘 맞아야지.
225:25
Speaker A
그렇죠? 어 그러니까 그 보시면은 미스케 에러는 거의 비슷 다 25점 비슷하네요. 퍼펙트 프레딕션인데 예측선이에요.
225:38
Speaker A
좋네요. 지금 예측선 그릴 거거든요. 세 번째는 예측선이나 실제하고 비교하네. MA로 갖고 MA를 갖고 예측해서 넘파이로 바꿔서 1차원으로 만들어 준 거예요. 1차원 배열로 만든 걸 MA 프로딕션이라고 하고 요게 스케터플러이죠. 실제값, 테스트 데이터의 실제값 그리고 ma 프레딕션스 테스트 데이터에 대한 MA
226:04
Speaker A
프레딕션스를 넣어서 엣지 컬러는 블랙으로 하고 라인의 두께는 0.5으로 해서 그림 그려 준 거죠. 플러스 그랬는데 x는 y 테스트의 최소값과 최댓값. y도 최소값과 최대값.
226:22
Speaker A
그다음에 빨간색의 대시형으로 라인 2의 퍼펙트 프레딕션이라고 지금 이렇게 그려 준 거죠. 그다음에 여기에 라벨 이름은 트루 밸류 진짜값 얘는 예측값 그래서 ma의 두 개를 비교해서 보겠다.
226:46
Speaker A
그러니까 잘 나왔어요. 딱 봐도 자 마지막 그림 보시면 5차 분포표예요. 이런 거 좀 그려면 좋은데 라스트 네임즈와 컬러들을 갖고 라스트 네임즈 컬러 난 다음에 라스 이름별로 예측한 거 그걸 넘파이 한 다음에 1차원으로 만들죠. 프레트 그래서 프레딕션 만들고 테스트와
227:13
Speaker A
프레딕션 한게 에러죠. 얘를 히스토그램으로 그린다. 에러를 갖고 얘 계급이죠. 이미 30개 구간으로 나눠서 투명도 있게 해서 그렸더니 요런이 지금 이게 히스토그램이죠.
227:28
Speaker A
이게 그때 이제 MSA 휴보를 볼 수 있어요. 휴보가 딱 봐도 수치적으로 좀 안정돼 있는 걸 보이시죠?
227:38
Speaker A
자, 그런 다음에 AV라인은 내가 기준을 선선 이거 그리고 싶을 때 많이 써요. 이제 데이터 분석에서 일부러 VV 아니 그렇죠.
227:49
Speaker A
x가 0이에 해산되는데 x가 0일 때이 기준이 초개된 거니까 여기에이 대시형을 그려 주겠다는 거죠. 빨간색으로 대시로 라인이에 제로웨어라고 스코 X축 이름은 예측 얘는 빈도스 예측가 얼마나 에러 디스트리션 얘는 에러니까 틀릴 만수가 틀린 거잖아요. 어 그렇게 보시면 되겠어요.
228:21
Speaker A
자, 그러면 이제 넘어가면 됐고 큐버라스하고이 델타 어떤 영향력이 있냐? 우리가 관심이 그거잖아요. 델타값이 기준인데 그거에 대해서 어떤 것들이 필요한게 있냐?
228:40
Speaker A
그래서 여기 보시면 델타값을 여러분이 원하는 대로 0.5, 5 1.0 2.0 5.0 리스트로 묶어 놓고요.
228:50
Speaker A
기준에 따라 이거 차이가 많겠죠. 5차 범위는 일부러 토치의 린스페이스를 이용해서 -10과 10 사이를 200등으로 미세하게 나눴어요. 그래서 에러들이고요.
229:02
Speaker A
큐브라스 계산합니다. 델타의 밸류가 요거죠. 네죠. 얘가 하나씩 델타값으로 돌면서요 델타값이 홈을 하면서 똑같지 않겠죠?
229:15
Speaker A
틀리게 적용이 될 거예요. 근데 보통이 평균 같은 거 낼 때 있잖아요. 기본값으로는 여기다가 하나 더 볼게요. Ja.
230:08
Speaker A
보통 이제 그래프를 그리는 걸로 지금 하려고 그러니까 원래 평균값을 링을 많이 쓰거든요. 근데 이제 그래프에서는 평균만 하니까 그냥 넌을 쓴 거예요. 여기서 그 보통 리덕션 저기 설정 안 하면 민으로 돼 있어요. 디폴트가.
230:27
Speaker A
그래서 델타 아까네 가지를 돌면서 휴보라고 하고 그 휴보가 에러와 그 에러 에러가 하나도 없는 거겠죠.
230:36
Speaker A
에러가 아닌 거 둘 중에 하나겠죠. 0이겠죠. 토치의 제로슬라이 기억나시죠?이 이 에러의 분포, 형태, 셰프에 맞게끔 다 0으로 채워주죠.
230:49
Speaker A
기억나시죠? 제로슬라이 다 영어로 채운 텐서예요. 그래서 라스트 밸류죠. 그래서 각각을 넘파이로 바꿔서 바꿔 줘야 돼.
230:59
Speaker A
그림을 이럴 때는. 그래서 보겠습니다. 그러면 어 얘가 지금 plt 여기다 이렇게 나오죠. 다른 답죠.
231:23
Speaker A
자, 그래서 각각에 올 때마다이 보시면 0.5일 때 이렇게 넓죠. 델타값이 1일 때 우리가 보통 표준으로 쓰는게 이거죠.
231:38
Speaker A
델타값이 크면 이게 많이 쓰죠. ms요 차가 여기서 많이 나는 거야. MS는 특히 심하죠. ma는 이렇게 돼요. 똑같죠? 1라고 같죠?
231:58
Speaker A
그렇죠? 지금 보이죠? 어. 자, 그래서 MS하고 MA를 비교하는데 요게 공식이잖아요. 1 아까 에러 제곱 기억나시죠? MS 이게 어떻게 보면 되게 쉬워요.
232:16
Speaker A
MSE 진짜 아닌 거 에러 에러들 중에서 거기서 제곱해서 1으로 각각 두 개는 2로 1로 나눈 거잖아요. 그렇죠? 이거예요.
232:31
Speaker A
토치에 얘는 그냥 MA니까 ABS 에러들 A스 한 거예요. 그래서 얘를 에러를 넘파이로 바꿔서 MA 밸류 넘파 바꾼 걸로 N를 넘파이로 바꾼 거 y축이니까 y 쪽이 갑이니까 그인 거죠.
232:51
Speaker A
어 그죠? 얘도 이제 그렸죠? 그래서 프딕션 에러, 라스 에러, 그다음에 델타값 이런 식으로 지금 그림이 그려진 거야. 그래서 결론을 해석하는게 중요해요. 델타 값이 작으면 MS에 가깝죠, 여러분이 봐도.
233:14
Speaker A
그리고 크면 MA에 가깝게 만들어 놨어요. 그래서 델타 1이 일반적으로 좋다. 요약하면 이거 그냥 돌리시면 자 이거 하고 밥 먹으러 갔다 오면 딱이네요. 그렇죠?
233:37
Speaker A
그 갔다 와서 라이브 코딩하면 딱이네요. 그렇죠? 자 정리할게요. MS는 뭐냐? 큰 5차에 너 어떻게 5차를 낼 수 있어? 그러면서 페널티를 제곱으로내는 거야. 그렇죠?
233:54
Speaker A
너는 우리가 그냥 더블로 가는 것도 우리가 그러니까 더블로 가는 것보다 더 무서운해요. 제곱으로 가니까.
234:02
Speaker A
그렇죠? 어, 그러니까 큰 옷차에는 페널티를 확 주는 거야. 그리고 근데 문제는이 자체 지병이 있어요.이 그렇죠. 이상체의 민감에.
234:17
Speaker A
근데 어찌됐든 뭐예요? 미분이 되기 때문에 깜짝 놀리어. M는 해석이 직관적이고 이상층에 간 거네요. 아니 모든 용체를 동등하게 지급해요. 아름다운에요.
234:32
Speaker A
어 근데 미분이 안 돼요. 딥론이 뭐해요? 어 너무 좋아요. 근데 미분이 안 된다. 최악이죠. 어 그렇죠. 미분이 안 되기 때문에 딥이가 안 돼. 포기해라 이거예요.
234:50
Speaker A
그래서요 두 개의 장점을 사는게 효예요. 델타로 경계 조절돼요. 그러니까이 델타를 여러분이 설정하는게 머리가 아플 거야.
235:00
Speaker A
근데 어차피 지금 하는 법을 가줬으니까 튜닝하시면 되죠. 실전 가이드는 일반적인 MS고요. 이상치가 많다. MA는 휴보고요.
235:10
Speaker A
특히 휴보를 많이 써요. 어떤이 상태가 너무 많거나 그럴 때 빠른 수염이 필요하면 MA M이고요. 강건성이 필요하다.
235:23
Speaker A
휴보예요. 그죠? 식사 갔다 와서 하겠습니다. 자, 여러분 식사 맛있게 하셨나요? 예. 자, 이제 제우스업 시작해 볼게요.
301:39
Speaker A
요거를 일단은 이제 오늘 수업 끝나고 해야 되니까. 자, 라이브 코딩을 좀 해 볼게요. 1분 드리고 하는 방식으로 해서 제목은 라벨스문입니다. 입니다.
302:45
Speaker A
이제 몇 개 드릴게요. 기본적인 거 자 돌려 보시면 이제 우리가 할게 라벨스무닝이 할 거예요. 어떤 효과가 있고 오버컨 conf컨피던스 방지한다. 일반화 성능을 향상시킨다.
303:11
Speaker A
그래서 토츠와 뉴럴 네트 옥팀파이 plt 자 데이터셋에서 분류 문제죠. 센 테스트 훈련용 데이터 평가용 데이터 나누고 그다음에 표준화시키겠다. 그다음에 평가 지표로 애스코와 F1 스코 특히 F1 스코 같은 경우에는 이제 불균형 데이터일 때는 F1 스코를 쓴다라고 했어요.
303:44
Speaker A
요거부터 할게요. 자, 원래 레이블이 있다고 할게요. 자, 세 개 클래스가 있어요. 코치에 텐서로 만들게요.
304:00
Speaker A
그래서 1 0 0 이렇게 데이터 타입은요. 플로트 이렇게 나오겠죠. 이렇게 하면 힐령이죠. 거가 우리가 뭐로 하냐면 원래 갖고 있던 오리지널 어 라벨이라고 할게요. 플 텐서니까 우리가 일단은 보통이 오리지널을 워닷인코딩 형식으로 이제 한다.
304:45
Speaker A
그러면은 우리가 이미 알지만 요걸 한번에 가서 이렇게 바꿔 줘야 되는 거죠. 그러면 배열로 바뀌죠.
304:56
Speaker A
얘를 이제 우리가 뭐라고 할 수 있냐? 원래 그냥 일반적인 원래 레이블이고 의미는 여기서 의미는 플래스 0번이 정답 이런 의미란 말이에요. 그렇죠?
305:20
Speaker A
만약 분류를 한다면 그래서 여기다가 라벨 스무딩을 적용해 볼게요. 스무딩 0.1을 정리를 할게요. 클래스는 몇 개예요?
305:47
Speaker A
플레이스 세 개죠. 자, 우리 스무딩 공식 포뮬러죠. y 스무스는 y 곱하기 1 -알파 + 알파예요.
306:14
Speaker A
거기다 나누기 k였지. K가 클래스수였죠. 그러면은 지금 스무스 밸류라고 하면 자 이거 보시면 전체 스무닝에서 0.1이죠.
306:44
Speaker A
0.1 점 알파값을 이제 그걸 스무딩이라고 한 거잖아요. 나누기 N클스 요거를 우리가 스무스 밸류라고 할 수 있다.
307:03
Speaker A
공식에 넣으면 되죠. Y는 오리지널 라벨이니까. 어 오리지널 라벨. 뭐 자동성이야 되는데 1 - 알파 스모딩이죠.
307:35
Speaker A
스무딩 요거를 스무스 밸류 요걸 이제 스무스 밸류로 하는 거죠. 이렇게 치면 이렇게 다 치우니까 Ja.
308:43
Speaker A
그죠? 요게 지금 1이 0.933 033 0.33833 이렇게 바뀌는 거 보이시죠? 넘파이로 바꾸는 이것의 의미는 뭐냐 뭐냐 이거죠.
309:21
Speaker A
효과를 말하면 하면 왜 하냐? 일반화 왜 실제 노이즈가 껴 있는 거고 확률값인데 어떻게 100% 확신할 수 있냐 이거지.
310:11
Speaker A
그 이제 요건 이제 개념 이해한 거고 실제로 나를 스무디 구현해 볼게요. 플래스로 적용해서 이름이 좀 길죠.
310:46
Speaker A
뭐냐면 이건이 뜻은 뭐예요? 라벨 스무딩이 적용된 크로스 교차에서요. 라스니까 손실이라고 할게. 하시고 셀프 플레스 스무디 0.1 기본이죠.
311:28
Speaker A
수포 그래 세 개잖아요. 그 세 개 들어가고 스몰이죠. 스무즈 컨피던스는 1.0 - 0.1이면 1이면 0.9잖아요.
312:28
Speaker A
컨피던스 확신은 자, 프레디하고 타겟입니다. 프레디는 모델이 예측하는 로지스고요. 타겟은 프레스의 인덱스가 되겠죠. 자, 로그 소프트맥스로 써야 돼요.
313:06
Speaker A
스포츠를 써서 로그인을 취한 소프트 매치 예측 디메이션은 1 L 프로빌티죠. 소프트맥스 확률값으로 변화시키 다음에 타겟을 원 핫인 인코드로 방식하자 코치에 제로 슬라이드 뭘 00 이렇게 만든 거죠? 처음에요 프랍스 로그 프랍스하고 같은 크기로 만들어서 제로를 다 치우 애를 트루
314:10
Speaker A
디스트 여기 치고서이 설명이 좀 많거든요. 코드가 조금 여기면 이론이 좀 많니까 그다음에 트루 디스트션이에요. 얘를 채우겠다.
315:14
Speaker A
스피 이렇게 쓰시면 일단 여기까지 일단 여기까지 자 보면은 자 여기 처음부터 어 로그 소프트맥스부터 자, 로그를 치해요. 첫 번째 단계가 첫 번째가 로그를 취해요.
315:59
Speaker A
소프트맥스에다가 자 그래서 요거는 뭐냐면 한번 찾아보세요. 천천히. 자 소프트맥스가 만나면 소프트맥스라는 건 뭐냐면 아직 그걸 배우지 않아서 이거 어려운게 아니에요.
316:30
Speaker A
아까 각각의 뭐 숫자가 나와서 얘를 확률로 변화시킨 거예요. 그래서 여기 아까 대의 고양이 당이 g가 있으면 넘버링이 0 1 이렇게 되잖아요. 0.7 0.3 0.2 이렇게 확률로 바꿔 주는게 소프트예요.
316:59
Speaker A
확률로 변화수는 공식은 간단해요. 요게 전체 요게 나올 확률값을 요거 나오거든요. 어, 그래서 얘는 확률로 변화시켰죠. 얘를 만나면요 값을 여기 받은 값을 확률로 발화시켜 줘요.
317:21
Speaker A
근데요 디멘션 1이라는 거는 뭐냐면요 클래스 버리 클래스가 배냐 고양이냐 g냐 이렇게 돼 있잖아요. 그 방향으로 이제 열 방향이죠. 열 방향으로 소프트맥스를 적용시켜 Ja.
318:07
Speaker A
자, 똑같아요. 교차 엔트로피 라스잖아요. 손실이에요. 손실 잘할 수요 원래 엔트로피라는 자체가 이제 물리학이나 이런데 나오죠.
318:16
Speaker A
모질써도 즉 퍼져 있는 거 데이터가. 근데 엔터핀은 이제 작다는 거는 뭉쳐 있다는 거잖아요. 어 그 구분이 계급으로 라벨링이 된다는 거죠.
318:30
Speaker A
아 그러니까 그 원리에 의해서 교차 엔트로피 계산해서 사용돼요. 증거를. 그리고 디멘이션 1은 클래스 방향.
318:42
Speaker A
이게 열방향인 거예요. 서포트맥스를 정하다 이겁니다. 그래서 소프트맥스 공식을 보시면요. 이거예요. 지면 일부러 요거 요거니까 만약 내가 입력한 애가 데이터가 g1, g2, gk까지 있어요. 그 여기에 들어가는 어떠한 1이 들어가든 2 들어가든 요거에 대해서 전체 나올 수 있는 1부터 클래스거든요. 클래스
319:41
Speaker A
세 개만 세 개.요 2의 g i 이렇게 써 있죠. 근데 요게 지수 함수예요. 지수 함수기 때문에 요구를 치한 거예요 지금.
320:01
Speaker A
어 뭐야? 어, 이거 어떻게 하지? 컨트롤스가 어피스가 어 지어 버렸나 보네.음 컨트롤 M 한 상태에서지를 눌러야 되나?
320:37
Speaker A
지금 안 돼. 그렇죠. 어떡하지? 하다가 요걸 버렸어요. 그냥 쳐버려야지. 어쩔 수 없어요. 자 일단 아, 살아났군요. 어 자, 여기까지 이해되시죠?
321:05
Speaker A
요거. 예. 로그를 취해서 교차데 올 자체가 소프트맥스가 왜 로그를 취하는 익스포넨셜 있잖아요. 아, 그러니까 거기에 대한 것이에요. 그래서 실제로가 확력값으로 바로 나오는게 아니라 지수 함수에 거기 해당되는 나누기 전체 지수 함수를 다 각각을 적용해서 더해 준 걸 나눠 주는
321:36
Speaker A
거예요. 해서 이제 개선을 하시면 그다음 거기다가 로그를 취해서 값이 나오는 거죠. 그 확률 변화로 바뀌고요. 왜냐면 전체 중에 몇 퍼센트 이렇게 되니까 그런 다음에 디멘션 1 클리스트 방향으로 우리가 소프트맥스를 적용하면 로그 prob티 즉 확률값으로 나와요.
321:58
Speaker A
로그 확률값으로. 그래서 여기다 잠깐 찍어 보면 사실은 요게 지금 계산이 안 돼서 그렇네. 좀 있다 보겠지만 사실은 로그 프스를 좀 있다가 한번 얘를 호출했을 때 한번 찍어 볼게요. 근데 미리 말씀드리면 얘는 셰프 요거랑 얘를 찍어 볼 건데 지금여 안에 있었으니까 안 보여
322:29
Speaker A
가지고네. 근데 결론부터 말하면 얘 CF를 찍잖아요. 그럼 어떻게 나오냐? 얘는 배치 크기 즉 이렇게 나와요. 크래스의 수 세 개잖아요. 그리고 배치 크기 내가 100개면 100 3 이런식이로 나와요.
322:53
Speaker A
그러면 여기는 이제 설명이 된 거 같고. 자, 위드 토치 노 그레이드. 자, 이게 지금 여기 변환했잖아요.
323:02
Speaker A
이게 뭐 하는 거냐면 스무딩이 되니? 정답 부분 생성하는 거죠. 여기서부터는요 뜻이 뭐예요? 기울기 추적 안 하겠다는 거죠. 계산해야 되는 알겠죠? 어, 그렇지.
323:23
Speaker A
예. 준님 1점 드릴게요.요 계산할 때는 토치도 그랬까. 자, 그렇어 보는데 왜 안 하냐면 얘 지금 트루잖아요.
323:45
Speaker A
그래서 왜 얘 지금 뭐 펑크하는 것도 아닌데이 트루 지금 우리가 구하고 싶은게 트루디스트리예요. 이게 뭐냐면 얘는 진짜 말 그대로 본 분포를 영어로 디스트리셔야잖아요.
324:08
Speaker A
진짜 부표는 우리의 목표값이잖아요. 실제니까 학스 파라미터 아니에요. 그러기 때문에 그냥 있는 그대로 그레디언트는 훈련을 쓰는 거잖아요.
324:23
Speaker A
추적 근데 얘는 그냥 있는 값이니까 그냥 나타난 거죠. 그래서 이거랑 같이 왜냐면 전체 분포와 실제 분포가 어떻게 생겼냐? 대치랑 같게 만들어 주고 형태를 그런 다음에 여기 보시면 채워요.
324:42
Speaker A
근데 어떻게 채우냐면 스무딩에서 아까이 스무딩 아시죠? 스향값 알파값 나누기 전체 클래스에서 -1을 한 거예요. 즉요 뜻이 뭐냐면 채우는데 모든 위치를 알파 이게 스무딩이잖아요.
325:08
Speaker A
맞죠? 여기 나누기 요게 클래스 아까 우리 하면 이거죠. k - 1이죠. 요거로 채워 줘.이 뜻이에요.
325:38
Speaker A
자, 그럼 여기서 힌트 하나까요? 힌트. 아, 힌트가 아닌지. 퀴즈. 맞춘 사람은이 점 드릴게요. 자, 왜 k - 2야냐?
325:59
Speaker A
그럼 우리 공식은 알파 나누 k였죠? 어, 죄송해요. 갑자기 살렸어. 아무 말이라 해도 돼요. 일단 민주님 아니에요.
326:37
Speaker A
뒤에 있는 계속 있어요. 왜 -1을 왜 있을까요? 해윤 님 2정 태유 님 아차상 1정 그죠? 예.
327:04
Speaker A
그래서 정답이 있잖아요. 1 트루디션 있잖아요. 정답 클래스 빼고 이해되죠? 그렇지. 클래스 빼고 얘를 하나 뜰까요?
327:36
Speaker A
지금 알파를 지금 우리가 0.1로 잡 잡았잖아요. 그렇죠? K가 몇 개예요? 3이죠? 그러면 얘는 어떻게 해요? 0.1을 어디다 분포해? 2.
327:54
Speaker A
그러면 얼마예요? 10에서 2 나누면 0.5인데 0.05죠. 이걸 각 오답 클래스에 분배하겠다 이거야. 분등. 이해되시죠?
328:21
Speaker A
자, 그런 다음에 트루 디스트리뷰터에 요것 그러면은요 뜻은 어떤 뜻이에요? 거꾸로 클래스에서 1 맞는 했으니까.
328:45
Speaker A
아 오케이.이 이 의미가 뭐냐면 자요 토치의 노블에 대해서 정답 분포하고 분포를 비교하기 위해서 이제 확률 분포잖아요.
329:00
Speaker A
확률 분포예요. 근데 사실 이게 여러분들이 혹시 여기서 이거 KL 디버전스 배우신 분들 있어요? 우리가 어차피 이거는 시험에도 나오고 우리 또 하긴 하는데 콜러라이백 divergence 배우신 분 없어요?
329:36
Speaker A
있으면 1번 없으면 0번 처음 봐요. 오케이. 자, 선형제에 나오는데 어려운게 아니에요. 지금 이게 뭐냐면 우리 확률 음보잖아요.
329:53
Speaker A
정기 분포 생각하면 돼요. 요렇게 돼 있었겠죠? 여기까지 이해되시죠? 정답 정답도 distribut션 확률로 나오면 정답도 이렇게 생기죠. 생기겠죠? 제말 이해되시죠?
330:12
Speaker A
자, 그러고 내가 이거는 정답이에요. 확률값으로 던진 애도 요따위로 생겼겠죠. 확률 분포니까. 그렇죠? 그러면은 클러백 디버전스라는 건 어려운게 아니라 요렇게 된 확률 분포와 지금 내가 예측한 애가 갖고 있는 확률 분포 있잖아요.요 차이를 보겠다는 거야. 그러면 여러분이 생각해도 이게 평균이 있고
330:42
Speaker A
이렇게 했죠.요 차이가 빵이면 좋겠죠? 차이가 빵이면 얘 파란색과이 빨간색이 만나는 거 아니에요. 정확하게 그걸 계산하는 거예요. 지금이 공식이 알겠죠?
331:00
Speaker A
지금 얘가 확률 분포가 나왔잖아요. 0.9 얼마 얼마? 여기 지금 이미 그래서 처음 쳐 본 거예요. 여기 확률 분포가 나온 거잖아요. 얘가 될 확률 분포 라벨 스무 해 가지고.
331:13
Speaker A
오케이. 어, 그러니까 처음에 우리는 일단 진짜인의이 로그 프라이브리티를 바꿨잖아요. 얘를 어떤 값을 진짜인애의 확률 분포를 만들어 줘야 돼. 서로 비교해야 되니까 형태를 똑같이 하고.
331:31
Speaker A
근데 모르니까 다 0이라고. 제로값을 넣어서 분포 그림 형태를 만들어 주고 거기에 이제 하나씩 값을 채우는데 정답이 아닌 정답 클래스를 제외한 나머지에게 저 우리요 값들 채워 주겠다는 뜻이에요. 왜?
331:55
Speaker A
원래 저기 어디에 있던 공식이에요? 여기 있던 스무스 밸류의 공식이죠. 요거잖아요. 맞아요. 어, 근데 아니, 알파에서 k 나누라면서 갑자기 여기서는 채우는데 왜 k - 1로 나누냐?
332:17
Speaker A
정답을 빼고 나머지에 균등하게 분배하려고 하는 거예요. 얘는 알았죠? 마이너스 나한 건. 그런 다음에 이제 스케트플러스로 실제로 그려 보겠다는 거죠.
332:36
Speaker A
자, 요거예요, 일단은. 자, 근데 일단은 더 좀 나눠 볼게요. 자, 그러면은이 말은 정답 클래스에는 뭘 넣겠다는 거예요?이 위은 다시 확신도 컨피던스 컨피던스는 뭐냐면 1 - 알파예요.
333:15
Speaker A
예. 보통 알파를요 스무딩이라고 하지만 우리가 이제 정답을 낮춘다. 하지만 알파나 원래는 5차에 갖고 있는 데이터를 그 밀도 분포를 알파라고 해요. 제가 한번 그렸었는데 기억나시는 모르겠어요. 통계에서 정진 문법을 그릴 때 얘를 뮤라고 하고요. 평 여기서 이만큼 평균에서 떨어진 거를
333:58
Speaker A
시그마라고 해요. 근데 양옆에 양측 검정할 때 1시마 여기 두 번이면 2시그마 여기 세 개면 3시그마 세 배.
334:14
Speaker A
그래서 요렇게 하고요 전체 들어 보신 분들 있어요. 전체를 6시그마로 지금 이게 제 얼굴 때문에 잘렸는데 일단 대충 여기까진 아시겠어요?
334:35
Speaker A
네. 자 그러면 요거를 지금 요거를 어쩔 수 없이 여기 다시 위에다 올려야 되겠네. 다시 그릴게요. 여기다가 이걸 설명해야 되겠으니까 그림판을 좀 보자. 글씨가 있어 가지고 네. 좀 이제 잘 보이죠? 자, 여기는 다른 걸로 할게요.
335:12
Speaker A
아 빨리 다시 그릴게요. 천천히이 기초 통계예요. 요거 이제 평균이죠. 우리가 알다시피 얘를 이제 우리가 민이라고 하죠.
335:29
Speaker A
이제 뮤 처음엔 여기서 떨어진 거 평균에서 떨어진 걸 우리가 편차라고 그랬어요. 근데 표준화 돼 가지고 이게 만약 0이면 1인 거고 -1인 거고 그렇게 한게 표준 정일 거고 일반적으로는 얘 평균이고 얘 떨어진 걸 편차라고 하죠.
335:53
Speaker A
얘를 양쪽에 얘를 0으로 왔을 땐 얘는 마이너스니까 -그마 시그마 두 배 - 2시그마 2시그마 3시그마 3시그마요 전체를 6시그마 자 그리고 결국은 뭐냐 뭐냐면 자 여기 보고 자 여기서부터 여기까지가요 양쪽이 면적 요거를 뭐라 그랬냐면 알파 우리가 지금 사는 알파예요.
336:41
Speaker A
5차 범 국간이에요. 틀릴 확률이라고요. 대조 공정에서는요 6 시그마는 뭐예요? 결고요 안에 여기 전체 확률이니까 알파니까이 면적이 1 - 알파요. 여기서부터 여기까지가 이게 제조공정에서선 정상품이 나올 확률이고요. 여기가 불량품이 나올 확률이에요.
337:19
Speaker A
왜냐면 1 -알파 + 알파면 확률은 100% 이거 확률 밀도니까 맞죠? 면적이 어 자 그래서 지금 뭐냐면 우리 제조공조에서 6시급 아니고 자격증도 있죠. 어 국가적이죠. 왜냐면 한로 옛날 6시그마 운동을 했어요. 그 뜻이 품질 효과 QC에서 폴러티 컨트롤 거기서는 왜 한마디로 우리는
337:47
Speaker A
불량품 하나도 안 만들겠다. 우리나라 삼성전자 유명하죠. 옛날 그 이거 회장이 열받아 가지고 어 삼성였나 애니콜이었나 갤럭시였나 애니콜이었던 거 같아요. 어 휴디폰 전화하는데 어디서 잘 안 잡힌다고 막 그렇게 불량품이 많다고 하니까 갑자기 좀 쇼맨십이 강했어요. 그죠?
338:12
Speaker A
화형식을 하셨죠. 전체 지금 생산하고 있는 재고 다 갖고 와 그래 가지고 불태워 버렸잖아요. 한 100 120만 들 다 오라고 하고 어 그래서 화용실 유명해요. 어 대수 특별됐죠. 그래서 우리는 앞으로 분량 제로를 목표를 한다. 어 그까 회장이 그러는 거 보고 긴장할 수밖에
338:38
Speaker A
없죠. 의원들 보고 불량률 몇 퍼센트 해 가지고 여기 여러분들 주세 놓은 거예요. 자, 대놓고 방송으로 판례 방송구에 여기 어 지금 저기 한마디로 황인제 사장님 그쪽 라인 불량률 4%야. 뭔 말인지 알지? 막 이제 이러이 이런 거죠. 대놓고 모든 사람이 있는 앞에서 그러면 황인제
339:01
Speaker A
사장님은 공장 가서 가만히 있겠어요? 그래서 그렇게 되는 거예요. 어, 공장류에서 찍으 어 그렇게 돼 가지고 지금의 1등 삼성이 나왔죠. 제품으로.
339:16
Speaker A
그냥 이게 요거예요. 한마디로 우리는 공격력 빵으로 하겠다. 그래서 되게 엄격해요. 어, 삼성 그 핸드폰 보면은 나품하기 되게 어렵다고 하죠. 깔단하다고.
339:30
Speaker A
분량을 재료 했는데 납품했는데 한 달에 불량률 세 개 나오면 협력 업체에서 잘려요. 이제 그런 식으로 어 하는 엄격한 품질 관리를 이제 자랑을 했죠. 그게 요런 식이에요.
339:48
Speaker A
그 5차 구간 요거예요. 알파값. 그 알파를 지금 뭐냐면 지금 요걸 잘 보시면요 공식이 의미하는게 그냥 나오는게 아니에요. 잘 보세요.이 상황에서 요걸 보시면 이해가 될 거예요.
340:04
Speaker A
또 또 요거 할 뻔했어요. 지워 버릴 뻔했. 자 뭐예요?요 공식 보시면 그 알파를 나눠 주라는 거야. 클래스에다 골고로.
340:19
Speaker A
왜? 얜 정답이라고 내가 1번이에요. 100% 1이에요. 했는데 골고로 에러를 나눠 줘라. 이해되시냐? 클래스의 골고로 에러가 얘를 얘가 0.9가 되면 0.1이 에러잖아요.
340:42
Speaker A
0점 1에 50%를씩 0.05를 용어를 얘네 둘에다가 할당해라. 이해되십니까? 지금 그거예요. 그 코드를 보면은 하나도 이해가 안 되는지만 전체 내용을 보고 하면 이해가 되죠.
341:04
Speaker A
그래서 이게 딥러닝 쪽은 이론을 모르면 스폰도 못 돼요. 코드 아무리 설명해도 저게 왜 저래요? 그러니까 한 이거랑 똑같아요. 막 옛날 타임즈 영어 읽을 때 요거를 해석하려고 그랬더니 영영 사전 보니까 영영사전에 설명해 주는 애가 모르는 단어가 세 개가 있는
341:26
Speaker A
그런 그죠. 어 막 속이 고구마의 언치 뭐 그런 느낌 어 나요. 그래서 좀 힘들어도 이론을 그러니까 이해를 하는게 중요해요.
341:39
Speaker A
그러니까 계산 문제는 얘가 계산하잖아요. 어 자 그래서 요렇게 이제 이해되시죠? 이제 그러면 정답은 이제 이것도 이해되죠?
341:56
Speaker A
확신이라는 뭐냐? 1 - 알파의 의미로 이해되시죠? 아까 정답이 있는게 1 -알파니까. 그래서 이제 설명을 드린 거야.
342:12
Speaker A
스펙터 언더바 디멘이션 인덱스 이거거든요. 밸류 이렇게 쳐요. 이게 뭐냐면 스테터 플러하고 그냥 끝내면 되거든요. 근데 얘는 소모듈이란 뜻이야. 이게 언더바으면 어떤 특정한 위치 축이에요. 디멘션 축이에요. 그렇죠? 거기에 인덱스와 밸류를 그 인덱스 위치에 어떤 특정한 값을 배체해라. 이런 뜻이에요.
342:52
Speaker A
이거예요. 그러면은 지금 뭐예요? 스케터 플러시라는 거 3전도 실제로 있는 그렇죠. 관측치를 옵조베이션이라 거죠. 반측치값을 놓는데 디멘션 1 그렇죠? 디멘션 1에 그렇죠. 위치에 타겟 언스 1이에요. 막 1이 막 막 나오니까 제가 헷갈릴 수 있어요.
343:20
Speaker A
이게 언스지 1은 여러분 이미 알아요. 뭐예요? 원래 타겟은 뭐야? 배치만 있다고 그랬죠? 아까 배치 개수만. 근데 콤마 1이 되겠죠? 100 1 이런 식으로 이해되십니까?
343:37
Speaker A
어 그리고 셀프 컴피턴스 여기 컨피던스는 1 -알 요거를 위치해 줘. 앞 요걸로 이예요. 그래서 다시 한번만 타겟 언스지 1이라는 거 어떻게 되겠냐?
344:06
Speaker A
요거 17 이렇게 되는데 얘는 어떻게 바꿔줘요? 배치 1 그죠? 이해돼요? 예를 들어서 여러분이 타겟이 0 1이라고 하게 값에 있는 애 이렇게 배치로 하나 한 개가 딱 한 개 딱 있어.
344:35
Speaker A
그럼 얘가 어떻게 바뀌어요? 0 1이면 일단 2차원이죠. 배치 하나 콤마 이렇게 되겠지. 이해되시죠? 음.
344:56
Speaker A
각의 0번 1번 열에 0.9가. 그러면은 지금이 말은 지금 1의 타겟 언스케 나오잖아요. 행에 0번 1번 열 1번 열이죠.
345:18
Speaker A
얼마? 0.9를 배치해라.이 이거 이해하셔야 돼요. 쿨로 라이백은 정말 중요합니다. 어, 근데 이제 별거 아닌 거 같지만 어, 나중에는 그냥 KL 디버전스만 쓰면 되는데 식은 좀 더 보여 드릴게요.
345:52
Speaker A
Ja. 예, 지금 일단은 0.9는 알파를 1로 했. 했으니까 컨피던스는 5차를 0.1로 잡았잖아요. 그러니까 90%가 되는 거죠. 0.
346:54
Speaker A
그죠? 아까 그림 그려서 보여드린 것처럼 틀릴 확률리 그리고 또 하나 아까 지웠는데 여러분들이 그 이제 이게 사실은 통계를 안 배운 상태에서 유는게 조금 힘들긴 해요 여러분들 아까 1시마요 2시그마 3시그마 중에 이제 여러분들이 많이 통계적으로 쓰는게 여기에요. 여기 그냥 5차의 범위를 어디까지
347:30
Speaker A
허용하겠냐이 뜻이에요. 여기 1 - 알파잖아요. 근데 만약 2마까지만 허용하겠다. 양쪽으로. 그러면 요게 정답이 들어갈 확률이 95%예요.
347:47
Speaker A
그래서 사회 가학에서는이 알파를 95% 0.95죠. 그래서 얘 0.05죠. 5%니까 5% 정도는 틀릴 수 있다고 생각해요.
348:10
Speaker A
내위반적인 실생활에 그래서 기본적으로 알파는 5%가 많아요. 현실에서는. 근데 공장에서는이 알파를 그렇죠. 다 통제가 가능하잖아요.
348:27
Speaker A
그러니까 얘를 뭐예요? 1%로 잡아요. 즉 분량률을 분량 제품을 1% 이하로 만드는 운동이 실한 운동이고요 1%죠.
348:44
Speaker A
그리고 1% 미만으로 만들어야 돼요. 왜냐면 분량품이 나왔는데 팔았다고 끝나는게 아니죠. 한번 장사하고 끝나려면 회사에서는 여러분 가만 있는데 불량품 집에 배달 왔어요. 노트북 그램 노트북 큰만 먹고 요즘 가뜩기는 비싼데 250만 원 주고 취업해 가지고 샀어요. 근데 엔터 키가 안
349:07
Speaker A
눌러져. 첫날부터 화면이 껐다가 이틀마다 껐다 켤 때마다 블루스크린이 나와. 계속 쓸 거예요. 그럴 수 있어 하면서 바로 반품할 거 아니에요.
349:21
Speaker A
그 반품하면 그 반품 처리비가 더 들른다고 되어 있어요. 그래서 불량품은 웬만하면 양품을 하는 거지 검수를 하는 이유 중에 하나가 그게 한마디로 나갔다가 마티에 나갔다가 팔렸다가 다시 환불해 가지고 적 재잖아요. 그 비용이 거의 두 배 가까이 들어와요. 그래서 분량률은
349:47
Speaker A
1%가 넘어가면은 안 만드는 거예요. 그래서 여러분들이 그런 반도체 특히 요즘의 화재니까 수율 수을 할 거예요.
349:58
Speaker A
왜요? 정밀 정벌이기 때문에 특히 웨이퍼 같은 경우 어 그게 이제 안 되면 수이 너무 낮으면 생산을 안 하는 거야. 참 될 수 있어도 너무 낫잖아요. 단가를 못 맞추는 거죠. 생산할수록 적이 어.
350:22
Speaker A
음. 그런 것들이 되게 많아요. 실제로 현실적으로 만들어 놨는데 안 파는 거야. 트라이폴더 나왔었잖아요. 트리폴드 삼성에서.
350:34
Speaker A
그거 한정판으로 찍은 이유 중에 하나가 손해가 그때 몇 배곡 났다고 들었는데. 그래서 사실 그거는 살만한 가치 있죠. 내가 근데 쓰면 안 돼.
350:43
Speaker A
원래 모셔 놔야지. 그죠? 어. 이해되시죠? 어. 왜냐면 걔는 그런 것들이 몇 개 있어요. 제너시스가 옛날에 처음 나왔을 때 그랬죠.
350:59
Speaker A
처음 나왔을 때 그랬고 실제로 옛날에 이제 쌍용이 지금 이름 바뀌었죠. 어 거기가 처음에 나왔던 고급세단인 체어맨이 있거든요. 걔네는 팔수이었어요. 왜냐면 엔진이 벤지 엔진이었거든요. 엔진을 생산할 능력이 안 돼 가지고 그냥 벤지 거 갖고 와서 그 벤지 엔진 달았어요. 그래서 그때 엄청
351:24
Speaker A
팔렸어요. 네. 벤즈의 절반 가격인데 엔진은 벤즈 S5, S 시리즈 뭐 이런 거 엔진이 그래서 그것들 그때도 아마 한 종으로 뭐 그 한마디로 명암의 대표나 이모이 아니면 못 사게끔 이렇게 판매를 했어요. 일부러 그렇게 마케팅 비용 대신 그렇게 한 거죠.
351:47
Speaker A
어 그런 경우에 있어요. 그래서 여러분들 요런 것들 좀 이해를 다 하셔야 돼요. 음. 자, 그러면 홀로 라이프백이 중요하니까 어 정리를 좀 한 걸 드릴게요.
352:23
Speaker A
여기다 맞춰야지. 네. 지금 너무 구속이 많아졌는데 여기에 지금 뭘 할 거냐면요. 지금요요 라인에 위드 나와서 여기까지는 이제 그거 배치랑 한 거고 나스를 계산하려고 하는 거잖아요.
353:00
Speaker A
치에 평균값을 내요. 이게 이제 그 공식이거든요. 예. 그래서 마지막에 여기까지 턴네 치세요. 그러면 요거 보세요.
353:37
Speaker A
여러분이 콜러라 드렸죠? 자 쿨론 라이백은 아까 계산했죠? 확률 분포가 두 개 있는데이 두 개가 얼마나 다른지 차이가 있는지 확인하는 계산이고 즉 진짜 존재하는 분포 예측 이게 P예요. 트루 디스트리뷰b에요.
354:01
Speaker A
모델이 예측한 건 Q예요. 근데 만약 이렇게 있어요. Q 그 두 개 약간 차이가 있잖아요. 근데 이게 얼마나 유사한가? 실제 q가이 예측이잖아요.
354:14
Speaker A
진짜랑 얼마나 벗어나는 그래서 크로스 엠트로피는 이게음 어 네거티브 로그 라이크리고 있거든요. 로그 설치한 라스예요.
354:31
Speaker A
거기다 콜로라펙티브저스 더한 거예요. 프로스 사실을. 어 그래서 요런 방식으로 진행을 해요. 콜로라디션스 더한게 크로스 앤트로 실제 요거는 이제 직관적으로는 여러분들이 이해를 했을 거고 그렇다면 지금 여기서 요 계산인데 여기서 어떻게 적용되냐 이거죠?
355:18
Speaker A
실제 본포가 지금 여기서지 말하는게 P죠. 정답 이게 여기서는 뭐로 나와 있어요? 트루 distribution 여기엔 지금 뭐가 돼 있어요?
355:46
Speaker A
라벨 스무딩 적용돼 있죠. Q는 라지 Q라고 해요. 얘는 이제 가상이잖아요. 모델이겠죠. 아 본포죠. 얘는 디스트리뷰션으니까 얘가 사실 소프트맥스를 통해서 한 확률값이죠.
356:25
Speaker A
로그 프로빌리티인데 익스포넨셜을 한 거야. 지수 로브치한 다음에 익스포넨셜 왜 그러냐? 풀론 라이백 공식을 보시면 돼요.
357:02
Speaker A
요하고 얘하고 얼마나 차이가 있는지 보겠다. 요게 실제로 정답이 존재하는 비율이죠. 확률값이잖아요. 그렇죠? px 정답이 존재하는 얘를 다 더해. 그다음에 요거하고 요거하고 비율이죠. 얼마나 유사한지.
357:30
Speaker A
그걸 로그해요. 그러면 로그 이게 뭐냐? 우리 아이 어떻게 바뀌어요? 이거 어떻게 계산해요? 자, 이거 보시면 p의 x의 로그 p죠. 곱하기니까 빼기 돼요.
358:05
Speaker A
로그의 특징이죠. 로그는 어떻게 돼요? 요게 나누기면 빼기로 바뀌죠. 아, 이거 너무 못 썼다. 지워야지.
358:34
Speaker A
지울게요. 로그는 나누기 곱하기는 10이면 로그의 3 * 4고 얘는 로그 3 + 로그 4가 이렇게 할 수 있잖아요.
358:57
Speaker A
거꾸로 나누기면 빼 빼주기로 빼주기로 바뀌죠. 그러니까요 공식은 x가 실제 분포하는데 얘랑 로그를 곱해 가지고요 확률을 곱하는데 요렇게 곱하고 빼기 전체 빼 전체 빼주고 이해되세요?
359:22
Speaker A
어, 계산이 이렇게 만들어지게끔 만든 거예요. 근데 실제로 이거랑 유사용했잖아요. 플러스 엔트비를 보시면 플러스 엔센트은 어떤게 될 확률 값에다가 곱하기 로그 확률이에요. 거기다 마이너스 치한 거고 자체 다 해 가지고 그래서 요거를 갖고 바꾼 거죠. 얘가 실제 이게 크로스터로지 이게 실제 값이잖아요.
360:01
Speaker A
예측한 거에요 값을 빼기를 계산해요. 유산해를 한 것을 계산하면 이렇게 되죠. 그래서이 쿨러이백에 로그를 치해서 다시 익스포넨셜 하는 트릭으로 바꾼다가이 말인 거예요.
360:24
Speaker A
소프트맥성. 즉 크로스 엔트로피를 이용해서 변형시켰어요. 그래서 다시 말하면 얘는 변형인데 어떻게 변했냐면 스는 마이너스 트루트 전체 다 정답이 될 확률은 여기에다가 곱하기 로그 프로티 이렇게 하면 여러분들 한글로 친절하게 근데 마이너스 붙여야죠. 왜냐면 그래야지 플러스 나온 거 봤잖아요.
361:39
Speaker A
그러니까 로그 1이 0이니까 로그 1이 0이니까 0보다 작은 값으로 나와야죠. 0.6 뭐 이렇게 퍼센 0과 1 사이니까 퍼센티지는 그러니까 마이너스 값이 나오기 때문에 -7에서 플러스 여기까지 이해되시나요?음 음.
362:08
Speaker A
그 이제 이게 계속 그거 하니까 리턴값을 여기는 자꾸 이게 나중에 묻혀 버리니까 주소에. 자 그러면은 의미가 뭘까요?
362:30
Speaker A
여기서 트루 디스트가 높다면이 뜻이 뭐예요? 정답이잖아요. 요게 높아요. 그리고 로그 prob리티 로그 예측한 로그 예측 확률이 낮아요.
362:56
Speaker A
자, 예측이 틀려요. 그럼 뭐가 나와요? 어떻게 되겠어요? 손실이 크겠죠? 아까 그랬잖아요. 그지? 손식 크죠?
363:18
Speaker A
근데 똑같아요. 정답이 둘 다 높아요. 근데 얘가 예측한게 맞아요. 높다면으로 정답 과고 비슷하니까 홀수는 작겠지.
363:45
Speaker A
그렇게 만들어 놓은 거예요. 그래서 이제 제가 했던 요거 보니까 이제 이거 보이시죠? 착한 사람 눈에 보이는데 이게 보여요.
364:02
Speaker A
이제 보여요. 트루파지티브에서 마이너스로프티 곱한 거에서 다 더해요. 뭐 무슨 방향? 디메이션 1 방향으로 그래서 평균 내라. 그게 낫스다.
364:21
Speaker A
이해할 시간 드릴까요? 네. 다 되면 알아서 1번 좀 눌러 주세요. 알았죠? 그렇다고 막 20분씩 하면 안 돼요. 쫓겨나요, 저.
364:36
Speaker A
어 그 한 이게 좀 쉽진 않아요. 한 4분 정도 드릴 쭉 치시면서 다시 한번 제일 중요한게 좋은 거 뭔지 아세요?
364:52
Speaker A
요거 손으로 써 보는 거야. 팬드로 가지고 지금 코드 코드처럼 여러분 쳤을 거 아니야. 손으로 써 봐야 될 거야. 이게 수학이 들어가니까 수 그래서 제 수업 때는 어쩔 수 없어요. 여러분 연습장이랑 팬을 옆에다 푸세요. 악수하면 되잖아요.
365:13
Speaker A
그렇죠? 예. 여러분도 봤지만 공식이 한두 개 나오는게 아닌데 저 여러분이 그거 받아 정는다고 외울 거 같아요? 안 외워요. 내가 외우라고 기도해야지 외우지.
365:31
Speaker A
그래서 어 이해를 하기 위해서 공식을 필요한 거고 꼭 외워야 될 공식은 제가 어차피 강의 안에 있잖아요. 꼭 외워야 되는 거야. 어떻게 보면음 35분에 어 진도 나갈게요.
371:29
Speaker A
35이 된 경계로 한번 이걸 이제 테스트해 볼게요. 해서 이렇게 하나 만들어 주고 이렇게 자 얘를 예측값 뭐지?
372:23
Speaker A
H노된 뭐지? 이렇게 할게요. 자, 그다음에 정답입니다. 배치 단어 파이츠 펜서로 만들고 정답이 원래 0과 1이었다고 할까요?
373:00
Speaker A
자, 우리가 일반적으로 생각하는 크로스 엔트로피, 교차 엔트로피 요걸로 계산해 볼게요. 얘를 C라고 할게. C에다가 그렇죠. 두에 넣으면 되죠.
373:39
Speaker A
매치로 돼 있는 로지과 매직값과 실제값 하게 됐지. 그가 보통 일반적으로 우리가 났어. 예. 그래서 얘를 한번 찍어 볼까요?
374:03
Speaker A
근데 이제 이렇게 찍으면 이거 이렇게 텐로 나오기 때문에 아이템 하시고 이렇게 나와요. 근데 이제 라벨 스무딩을 한 스 아까 라벨 스무딩 크로스 앤트로피 여기다 집어넣으면 되잖아요.
374:48
Speaker A
클래스는 세 개였고요. 스무딩은 0.1이었죠. 얘를 C 스무스라고 할게요. 그런 다음에 얘를 가져와서 뭐 하면 돼요?
375:13
Speaker A
배워지 할게. 두 개 비교하면 되죠. 얘를 라스는 라스인데 스무스한 거잖아. 얘도 이렇게 치면은음 어디 보자. 왜 아 소스 잠깐만 셋 빼고도 훅 스스 잠깐만요.
376:15
Speaker A
라스 잠깐만 아예 처음부터 이렇게 또 이게 나오네 잠못 쓴 거 있나? 활용해 볼게요.이 배츠 크기가 여기 꼬여서 잡히면 요거 1 마스무인 정의되지 않았다고요? 요걸 요걸 하셨어요? 돌리셨어요?
377:32
Speaker A
그게 아니라 지금 여기에 낫거든요. 이새 그걸 제가 안 했어요. 어디 보자. 그러네. 뭐요? 승민 님 1점 쓸게요. 네. 좀 초보적인 제가 요거 상속받아 가지고 이거 안 했잖아.
378:03
Speaker A
어, 지금 요거든요. 보면 이렇게 에러가 나면 나와요. 요게 백어도 훅스가 없다 이러잖아요. 음. 그러니까 넣고 네. 나오죠.
378:25
Speaker A
스무등했더니 5,000원 커지죠. 그 0.25에서 0.45로 커지는 걸 여러분 할 수 볼 수 있어요. 그러면은 라로 차이가 나가잖아요. 한 차이라고 할까요? 차이 라스 어 스무스하고 얘하고 라스하고 차이를 계산하면 되죠.
379:03
Speaker A
그래도 아이템을 해야 되는 거 0.1 이 정도 이제 차이가 나는 걸 확인할 수 있습니다. 아까 여기 코딩 할 때 자동 완성하고 그냥 넘겼는데 요걸 안 했어요. 그래서 내로가 난 거고 어 여기 다 치셨죠?
380:06
Speaker A
여기까지 되신 분들 이해됐고 그러신 분들은 1번을 눌러 주세요. Ja. 자, 그러면이어서 진행해야 될까요? 자, 이제 뭐냐면 실제로 한번 요걸 이정해서 데이터 준비하고 모델 정의해 보겠습니다.
381:25
Speaker A
자 만들게요. 분류할 거예요. 클리시피션 해 가지고 앤 샘플스 보면 1천000개 자 피천을 20개로 할게요.
381:44
Speaker A
포머티브는 15개 나고 리던 턴트는 다섯 개인데 이건 필요 없는 그냥 말해도 되니까 엔커이스 다섯 개로 할게 이렇게 해서 그다음에 어 크러스텀 이거 좀 필요해요.
382:11
Speaker A
나 그다음에 랜너스 42 얘를 X하고 Y를 별 해서 블록해서네 만들어. 자, 여기서 요것만 처음 보시죠?
383:01
Speaker A
이거 나머지는 이해되시죠? 1천개에서 20개인데 인포머티 15개고 클래스 다섯 개고 랜덤하게 된다. 근데 앤크스 클래스가 뭘 거예요? 클래스별 크러스트가 몇 개냐? 한 개다.이 뜻이죠.
383:21
Speaker A
말 그대로 군지수는 몇 개냐? 한 개다. 당연히 군집이 많으면 데이터가 복잡해지겠죠? 자, 학습 데이터를 데이터 트레인 스프리트 갖고 와서 XY죠.
384:12
Speaker A
즈 0.2고요. 이고요. 랜덤 스테이트 42 스트레터파 Y에 되겠습니다. 얘를 엑스트레인 Y트리 테스트 Y트레인 Y 테스트 이렇게네 개로 이제 분환하는 거죠.
384:58
Speaker A
지금 우리 보면 계속 반복하고 있죠. 정교해야죠. 얘를 스트레로 자 이거 피트랜스폼이죠. 누구에 대해서? 트레인 데이터에 대해서 얘를 그냥 업데이트 시킬게요. 그냥 얘는 트랜스폼이죠.
385:49
Speaker A
뭐에 대해서 X테스트에 대해서 업데이트 한 거죠. 그러면 한 번만 하나만 한번 열어 보시면게 나와.
386:25
Speaker A
얘를 이제 우리 배우듯이 토치로 바꿔 줘야지. 스케일링 했으니 끊었으니까. 정확하면 텐츠의 포텐스 이렇게 되겠군요.는 요렇게 바뀌네요.
387:03
Speaker A
엑스트레인의 언더바티라고 할 똑같이 저것도 만들어야 돼. Y 트레이 똑같이 만들어야 돼요. Y 트레인도 이제 미리 말하면 T.
387:26
Speaker A
아, 얘는 롱으로 해야 돼요. 롱은 뭐예요?롱 롱 인티저 정수예요. 그죠? 어 그죠? 도윤님 2점 학형님 인정 정확한 인티저 중인 제일 큰 64 그래서 이제 바꿨잖아요.
388:19
Speaker A
얘를 한번 볼게요. 20개네요. 찍어라. 음. 여기가 1천000개 중에서 800개는 트레인 데이터에 데이터고 200개는 테스트 데이터고 각각은 속송 20개씩 있는 거죠.
389:15
Speaker A
이제 분류 모델 만드는 거잖아요. 정의해 볼까요? Fire에서 네트워크 모델을 만들어 보죠. 시퀀스 점 리니어 20개에서 128개로 갈게요.
390:27
Speaker A
그다음에 넬로 통과시키고요. 그다음에 무작기로 떨어뜨리는 거 들어와서 갈게요. 30% 정도 다시 N점 리니어 128 64 N점네 나오네요.
391:06
Speaker A
자, 여기 두 번째 12 64로 가고 렐로 통과시킨 다음에 무작기로 30% 떨어뜨린 다음에 64에서 전체 앵클레이스 안 썩었지만 여기 디폴트로 5라고 되겠죠. 다섯 개 클래스로 나눠. 그다음에 얘를 집어넣은 거죠.
391:47
Speaker A
자, 이제 요거 돌려 보시고. 음. 자, 여기 함수에 리턴이 없네. 리턴 함수. 잠깐만요. 콤마가 까먹었다니까 여기 있나 보다.
392:06
Speaker A
요거음네 여기 안 붙어 가지고 다시 붙였어요. 일단 자 그러면 이제 해 볼게요. 뭘 거냐면 일반 버저스 라벨스딩 학습이 어떻게 되냐?
392:37
Speaker A
자, 스무님 밸류를 만들어 둘게요. 음. 하나도 없을 수 있고요. 0.0 0 5% 10% 20% 그 결과물을 선으로 스무딩이 0이다.
393:29
Speaker A
뭐예요? 그냥 그냥 나오는 거죠. 일반이죠. 그죠? 로 얘를 크리테리얼 한마디로 기준을 섬겼다는 거죠. 라스로 이쁘니까 라면 있는 거죠.
394:16
Speaker A
그러니까 뭘 해야 돼요? 요거 쓰시면 돼요. 다섯 개죠. 그리고 스무딩을 내가 스무딩이라고 설정하는 값이 되죠.
394:41
Speaker A
얘를 크리테리얼로 쓰겠다 했어. 조그에 따라서 자 모델 초개할까요? 아까 블루기 크래스파이어 이거잖아요. 여기에 클래스는 뭐죠?
395:22
Speaker A
얘를 우리가 모델이라 할게요. 옵티마이저를 이용해서 그런데 아담을 웨이네트 0.06 영 옵티마이저 나오죠. 자, 학습을 할 거니까 프레인스 하고 트레인의 한 싱스 에큐 뭔 거야?
396:43
Speaker A
100 번 돌리면 되 하나씩 이거 모델 선호합니다. 트인할 거다. 제로브레드로 초기하고 이제 얘를 어떻게해요?
397:01
Speaker A
실제로 텐서가 들어 있는데 이걸 써야죠. 아웃 요거와 정답인 페인소로 바꿔 준 얘랑 해서 얘를 빼고 하고 이렇게 하세요.
397:45
Speaker A
그런 다음 트레이너스를 얘는 뭐 지금 하지 말라고. 자 일단 여기까지 치시고
Topics:손실 함수라스 함수MSEMA휴버라스크로스 엔트로피BC 손실 함수딥러닝로봇 공학컴퓨터 비전

Frequently Asked Questions

휴버라스 손실 함수란 무엇인가요?

휴버라스 손실 함수는 MSE와 MA의 장점을 결합한 손실 함수로, 이상치에 강건하면서도 딥러닝에서 미분 가능해 최적화에 유리합니다.

MSE와 MA의 차이점은 무엇인가요?

MSE는 제곱 오차로 이상치에 민감하지만 미분 가능해 딥러닝에 적합하며, MA는 절대 오차로 이상치에 강건하지만 미분 불가로 딥러닝 적용이 어렵습니다.

크로스 엔트로피(BC) 손실 함수의 역할은 무엇인가요?

크로스 엔트로피는 이진 및 다중 분류 문제에서 모델의 예측과 실제 클래스 간 차이를 측정하는 손실 함수이며, 수치적 불안정성을 BC with 라스 기법으로 개선할 수 있습니다.

Get More with the Söz AI App

Transcribe recordings, audio files, and YouTube videos — with AI summaries, speaker detection, and unlimited transcriptions.

Or transcribe another YouTube video here →