대화 필기 첫수업
필기를 막장으로 해놔서 알아볼 수 도 없을지경..
나레기...
서비스 중인 음성인터페이스는 시리 에스보이스 큐보이스 있다
시리에 대한 잡. 음성은 뉘앙스 앤진 + NLP 회사 인수 (이 회사 이름이 시리 였다고 한당)
지금은 뉘앙스엔진 안쓴다고함.
임베디드기기 적용 음성인식 기술 수준의 변화는
1997 안성기 본부!본부! 폰
사실 이건 음성인식 아님 걍 패턴매칭 "본부"소리 녹음해 놨다가 패턴매칭
20개 까지 녹음가능
input이랑 녹음된 데이터 사이애 shortest path를 구한당
2002 여기부터 음성인식
음성다이얼링 200단어 였다고 한당
2005 SMS 받아쓰기 뉘앙스 엔진이 사용됨
2005 연결단어 인식식
2008 네비게이션 100만단어 인식 서울지명 100만개 전국 200만개 지명있음
---이때까지 뉘앙스 제국, 소용량 계산속도 올리는데 집중했다 임베디드잖닝
2008 구글에서 클라우드 컴퓨팅을 이용한 음성인식이 나옴
대용량 데이터를 서버에 보내 클라우드 컴퓨팅
구그루ㅜ루루루루루루구그루루루루루
2011엔 시리나온다 대화를 하다니 세상에낫!
-------
요즘은 어떠냣
아마존 알렉사랑
페퍼 요런 아이들이 있다네
에코는 원통형 array mic 사용 멀리서 말하는거 알아들어야함
울리는 소리 나 잡음까지 고려해야댐
소리가 들리는 방향을 어뜨케 알까? - array mic, 어디서 소리나는지 알아내서 다른바향에서 오는 소리는 잡음으로 쳐서 제거 해버림
저원통을 삭 자르면
동그라미 안에 6개의 마이크가 60도 간격으로 있당
중간에 하나 더있고
시리한테 말하려면 마이크 버튼을 누름 star of conversation
알렉사는 음성구간 어찌 알지?
"알렉사"라고 부르면 반응시작.
계속 마이크 켜져있음
만약에 이름이 13개면, " (13개 중 어떤이름 )" 하면 13개중 젤 확률이 높은걸로 생성
또 그란데 말입니다.. 없는 이름 부르면? 그래도 그나마 젤 높은 확률로 생성
그래서 필요한게 rejection model 13개 각 이름마다 rejection model 만들어
그래서 알렉사란 이름 하나로 그냥 통일 한다, 리젝션 모델 오직 하나만!
=============================================
문제의 복잡도! 우리의 알파고 짜응과 비교를 해보쟈
가능한 입력의 수
알파고 : 10^360
1초 음성입력 : 10^211200
(그럼 출력은? 알파고 1/360, 음성인식대화 1/infinite... 게다가 알파고는 2분, 음성인식 대화는 바로 대답해 줘야)
알파고 문제의 복잡도
-가능한 기보의 경우의수
바둑판내 있는 돌 놓는 점은 361개
각 지점마다 3가지 상태 (빔, 까망, 하양)
가능한 기보의 경우의 수는 3^361 ~= 10^170
-가능한 대국 경우의 수
361!
바둑의 규칙상 평균적으로 다음 수를 둘 수 있는 경우의수가 약 250개
바둑게임 평균 길이는 150수
250^150 ~= 10^360
음성신호는...?
to be continued...
나레기...
서비스 중인 음성인터페이스는 시리 에스보이스 큐보이스 있다
시리에 대한 잡. 음성은 뉘앙스 앤진 + NLP 회사 인수 (이 회사 이름이 시리 였다고 한당)
지금은 뉘앙스엔진 안쓴다고함.
임베디드기기 적용 음성인식 기술 수준의 변화는
1997 안성기 본부!본부! 폰
사실 이건 음성인식 아님 걍 패턴매칭 "본부"소리 녹음해 놨다가 패턴매칭
20개 까지 녹음가능
input이랑 녹음된 데이터 사이애 shortest path를 구한당
2002 여기부터 음성인식
음성다이얼링 200단어 였다고 한당
2005 SMS 받아쓰기 뉘앙스 엔진이 사용됨
2005 연결단어 인식식
2008 네비게이션 100만단어 인식 서울지명 100만개 전국 200만개 지명있음
---이때까지 뉘앙스 제국, 소용량 계산속도 올리는데 집중했다 임베디드잖닝
2008 구글에서 클라우드 컴퓨팅을 이용한 음성인식이 나옴
대용량 데이터를 서버에 보내 클라우드 컴퓨팅
구그루ㅜ루루루루루루구그루루루루루
2011엔 시리나온다 대화를 하다니 세상에낫!
-------
요즘은 어떠냣
아마존 알렉사랑
페퍼 요런 아이들이 있다네
에코는 원통형 array mic 사용 멀리서 말하는거 알아들어야함
울리는 소리 나 잡음까지 고려해야댐
소리가 들리는 방향을 어뜨케 알까? - array mic, 어디서 소리나는지 알아내서 다른바향에서 오는 소리는 잡음으로 쳐서 제거 해버림
저원통을 삭 자르면
동그라미 안에 6개의 마이크가 60도 간격으로 있당
중간에 하나 더있고
페퍼 우리의 후추양
먼저 말걸고 감정표현 한당
알렉사는 음성구간 어찌 알지?
"알렉사"라고 부르면 반응시작.
계속 마이크 켜져있음
만약에 이름이 13개면, " (13개 중 어떤이름 )" 하면 13개중 젤 확률이 높은걸로 생성
또 그란데 말입니다.. 없는 이름 부르면? 그래도 그나마 젤 높은 확률로 생성
그래서 필요한게 rejection model 13개 각 이름마다 rejection model 만들어
그래서 알렉사란 이름 하나로 그냥 통일 한다, 리젝션 모델 오직 하나만!
=============================================
문제의 복잡도! 우리의 알파고 짜응과 비교를 해보쟈
가능한 입력의 수
알파고 : 10^360
1초 음성입력 : 10^211200
(그럼 출력은? 알파고 1/360, 음성인식대화 1/infinite... 게다가 알파고는 2분, 음성인식 대화는 바로 대답해 줘야)
알파고 문제의 복잡도
-가능한 기보의 경우의수
바둑판내 있는 돌 놓는 점은 361개
각 지점마다 3가지 상태 (빔, 까망, 하양)
가능한 기보의 경우의 수는 3^361 ~= 10^170
-가능한 대국 경우의 수
361!
바둑의 규칙상 평균적으로 다음 수를 둘 수 있는 경우의수가 약 250개
바둑게임 평균 길이는 150수
250^150 ~= 10^360
음성신호는...?
to be continued...
댓글
댓글 쓰기