싸이언스키드2007/10/22 23:17
지난번 Terrence Tao의 블로그에서 compressed sensing에 대한 글을 읽고 호기심에 좀 들여다 보고 있는데... ( 2007/10/02 - Terence Tao의 블로그 참고) 나름 재미있다. 요새 신호처리에서 수학 좋아하는 사람들이 많이들 들여다 보고 있는 주제 같은데, 나는 수식 나오는 부분은 모조리 스킵하면서 보고 있다. ^^

아래 슬라이드는 UIUC의 Minh Do 교수의 홈페이지에서 발표자료 몇 장 캡쳐해 온 것이다. 스스로 정리 삼아 여기다 적어본다.


1. Do 교수는 웨이블릿에 대해 훌륭한 논문을 많이 내놓은 젊은 교수인데, 이 세미나 슬라이드의 인트로덕션 부분은 정말 깔끔하게 정리를 잘 해 놓은 것 같다.
사용자 삽입 이미지
---------------------------------------------------------------------------------------------

2. Sensing이라는 문제를 어떻게 정의하고 있는지와 notation 소개다. object x를 어떻게 b라는 벡터를 이용해서 표현하는가 (그리고, 이 b에서 다시 x를 복원해 내는가 하는가) 하는 것이 Sensing problem이다. 당연히 b는 짧으면 짧을수록 좋고, 그 '표현'과 '복원'은 계산이 간단할 수록 좋고 복원 후 오차가 작을수록 좋다. (비유를 하자면 x는 압축하기 전의 영상파일이고 b는 압축된 후의 JPEG 파일이라 생각하면 되겠다.)
사용자 삽입 이미지
---------------------------------------------------------------------------------------------

3. 가장 유명한 결과 중 하나인데... 샤논이 증명하길, 연속적인 함수를 만약 일정한 빠르기로 순간적인 값을 기록(sampling)해 두었을 때, 이 기록된 벡터로부터 다시 원래의 연속적인 신호를 복원해 내려면 그 빠르기는 얼마 이상이어야 하는가 하는 질문에 대한 답이다. 답은, 신호를 (예를 들면, 푸리에 변환 등으로) 주파수별로 나타냈을때 최대 주파수의 2배만큼의 빠르기로 신호 값을 저장해 두면 된다는 것. 예를 들어, 음성이 최대 6000Hz까지 난다면 12000Hz로 그 음성을 기록해 두면 나중에 완벽하게 그 음성을 만들어 낼 수 있다는 것이다.
사용자 삽입 이미지
---------------------------------------------------------------------------------------------

4. 요새 핫이슈 중 하나인 Compressed Sensing. 어떤 신호(물체)가 한정된 (소수의) 주파수나 성분(basis)으로 이루어졌다면, 그것을 복원해 내기 위해서는 3에서 말한 것처럼 주파수의 두배 만큼씩 값을 취할 필요가 없다. 이 경우 재밌는 결과는 "주파수나 성분의 전체를 취하지 않고 일부만 무작위로 취하더라도 원래의 신호를 복원해 낼 확률이 매우 높다"는 것이다.  그리고 계산도 basis pursuit처럼 convex optimization으로 귀결될 수 있기 때문에 비교적 쉬운(?) 계산이라는 점도 있고. (슬라이드에서 "basic pursuit"는 "basis pursuit"의 오타인 듯 하다.)
사용자 삽입 이미지
---------------------------------------------------------------------------------------------

ps.  이런 주제는 역시 기호와 수식보다 말로 설명하는 게 더 어렵다.

Posted by Rainyvale

TRACKBACK http://rainyvale.puppynbunny.com/trackback/170 관련글 쓰기

댓글을 달아 주세요

  1. oceanide

    온갖 수식이 난무하는 포스팅! 그나마 알아먹겠는건 classical sampling뿐이구만. ^^

    2007/10/22 23:51 [ ADDR : EDIT/ DEL : REPLY ]
    • 그냥 대충 보면 그렇지. 인내심을 가지고 공포심을 버리고 차분히 읽어보면 어려운 수식은 사실 거의 없어. 괜히 < , >_{L2(R)} 같은 귀챦은 수식을 써서 그렇지 그런 쓸데없는 기호(?) 빼면 그냥 행렬과 벡터 곱셈 정도의 수식인데...

      하지만 나도 수식은 다 건너뛰고 읽는 편이니... ㅋㅋ

      2007/10/23 02:03 [ ADDR : EDIT/ DEL ]
  2. "주파수나 성분의 전체를 취하지 않고 일부만 무작위로 취하더라도 원래의 신호를 복원해 낼 확률이 매우 높다"는 얘기는 모집단 전체를 비교하지 않고 표본만 취해서 비교해도 전체를 파악할 수 있다는 얘기이므로, 통계학이라는 학문 분야가 존재하는 전제가 된다네. ^^ 나도 관련 서적을 읽을 때 수식은 거의 건너뛰고 읽음. -_-ㅋ

    2007/10/23 08:05 [ ADDR : EDIT/ DEL : REPLY ]
    • 음... 이게 좀 맥락이 다른데... 표본조사에서는 표본이 모집단 전체의 통계적 특성을 상당히 따른다는 아이디어인 거고... Compressed sensing에서는 주파수나 성분끼리는 많은 경우 서로 직교(orthogonal)한다든지 해서 서로간에 연관성을 가능한한 없도록 만들어져 있고, 따라서 그 성분들의 통계적 특성은 서로서로 다르고 그들의 집합적 특성이 전체 신호의 통계적 특성을 따를 것이라 보기도 어려울 것 같은데...

      그리고 또 하나의 차이점은 표본을 추출해서 연/속/된 함수를 복원해 낸다는 거고...

      여기에 통계 전문가도 가끔 오니까 답을 더 명쾌하게 줄지도 몰라. ^^

      2007/10/23 10:25 [ ADDR : EDIT/ DEL ]
  3. HLee

    명쾌한 문제도 불분명하게 바꿔 놓는 재주를 기르는 중인데...

    혹시 Independent component analysis (ICA)에 대해서 소개좀 해주실 수 있나요? 신호 처리에서 소개되는 dimension reduction method같은데...2번째 슬라이드랑 연관이 많은 듯해서요. 생각에는 A에 대해 어떤 가정을 할 수 있는가에 따라서 방법론이 여럿 나뉘는 것 같고, b를 어떻게 해석할 것인가도 많이 달라지는 듯해요.

    늘 감탄하는 바이지만, 문제를 인식하고 해석하고 간결하고 쉽게 설명하는 능력이 참 출중하세요. 전에 샤논 페이퍼에 대한 설명, 내용을 반복적으로 잊어버려서, 다시 보게 되는데, 볼때 마다 감동~

    저기 Donoho는 Stanford교수인 David Donoho겠죠? Wavelet검색하면 종종 등장하는 이름인데, 그저 부럽다는. Wavelet과 영상 복원 (천체냐 노이즈냐 구별하기)에 대해서 공부를 해야하는데...미루고 미루고..또 미루고...

    늘 도움 받아 갑니다.

    2007/10/23 16:44 [ ADDR : EDIT/ DEL : REPLY ]
    • 전문가가 위 질문은 무시하는겨? ^^

      ICA에 대해서 교과서나 논문에 나온 것보다 더 잘 설명할 것 같지는 않고... 그냥 말이 나온김에 원래 포스팅의 맥락 설명을 더 하자면...

      네 말대로, 대상 x에 따라서 A를 다르게 정의하는게 중요하지. x가 stationary한 경우에는 푸리에로 충분한 경우가 많지만, (천체사진처럼) 그렇지 않으면 wavelet 같은게 좋다고들 하고, 요새는 contourlet처럼 **let이라고 이름붙은 애들 만들어 내는게 유행인 듯 하고... 여기서 짚고 넘어갈 사실은 얘네들은 모두 A가 signal-independent한 방법들이고...

      PCA (혹은 KLT), ICA도 유용하긴 한데, 좀 불편한 점은 A가 signal-dependent하게 된다는 점.

      compressed sensing(CS)에서 재밌는 점이 여기에서 나오는데... 주어진 상황은, 첫째, A는 이미 주어져 있다는 것 (즉, 예를 들면, 웨이블릿 변환인지, 푸리에 변환인지 미리 정해져 있다는 것). 둘째, 그 신호에 제한된 숫자의 성분만 들어 있다는 것만 알 뿐, 구체적으로 어떤 성분이 들어있는지는 미리 알지 못하고 있는 상태라는 것. 이 두가지 상황에서 나오는 짐작은, A 중에 어떤 성분이 x를 나타내기에 적당한지 signal-dependent하게 정할수 밖에 없을 것일 수 있을 거고. 그런데, compressed sensing에서의 주요결과에서는, 반대로 놀랍게도 A가 signal-independent하고 그 성분들 중 어떤 것을 쓸지 signal-independent하게 미리 랜덤하게 정해 놓더라도 그 b의 일부분에서 나중에 x를 찾아낼 확률이 아주 높다는 것이지.

      그래서, ICA와 CS의 차이점을 대충 보면... 첫째, signal-dependent하냐 안 하냐, 둘째, 주타겟이 length(x)와 length(b) 중 어떤게 더 큰 경우를 향하고 있느냐가 아닐까 하는데...

      Donoho 참 대단한것 같아. 저 Do교수의 지도교수였던 Unser와 Vetterli도 대단하고... Kovacevic는 그사람이 IEEE-TIP편집장이던 시절에 학회에서 봤는데, 너무 어려 보이고 배낭을 메고 다녀서 대학원생인 줄 알고 같이 농담하고 그랬는데 알고 보니 그 사람이었고... ^^ 이 사람들을 보면 사람들 자체가 똑똑한 것도 있지만, 기존연구에서 중요한 다음연구 주제를 잘 찾아내고 그것을 수학적인 문제틀로 만들어 내는 것이 정말 탁월한 것 같아. 자기네들끼리 서로 의견 주고받고 하는 것도 정말 큰 것 같고... 마치 20세기 초반 양자역학 만들어낸 사람들이 모두 친구였고 같이 모여서 얘기 좀 하다가 새로운 이론의 단초가 만들어지고, 그랬던 것과 비슷하달까...

      compression, estimation, approximation, regression, pattern classification 등등이 모두 다 같은 문제들이라는게 참 재밌는 것 같아.

      2007/10/23 18:08 [ ADDR : EDIT/ DEL ]
  4. HLee

    저보다 답을 잘하시잖아요. 말을 많이 할수록 무식함만 들어내는지라, 조심하고 있는데, 그래도 궁금한 것 어쩔수가 없네요.

    신호(이미지)처리에서 무시못할 가정은 x들이 연관되어 있다는 사실(?)이 아닐런지, 시간적으로나 공간적으로나 말이죠. 독립적이라면, 모든게 노이즈일테니까요. 이건 제가 신호처리랑 통계를 구분하기 위한 짧은 생각이고요, 두 분야가 같은 확율론과 수학을 쓰기에 언급한 대가들이 여기저기 넘나들수 있다고 생각해요.

    제가 ICA에 대해서 물은 것은, ICA로 여러 천체에서 관측된 물리량을 가지고 clustering을 해보라는 임무가 주어졌는데 (분해능때문에 같은 천체라고 분류가 되어도, binary나 변광하는 천체에 대해선 관측치가 다르기 때문에, 약간의 dependency가 있지만) 전반적으로 독립인 약 70개의 천체 (일부는 중복 관측)와 12개의 변량을 갖은 신호처리랑은 무관한 데이터에 신호처리에 쓰이는 방법을 이용해서 dimension reduction을 할만한가 궁금해서 였어요. (데이터에는 missing도 있어요)

    PCA랑 ICA는 A에 대한 가정이 다르다는 것 빼고는 아는게 전무하고, 무슨let들도 전혀 아는바 없고, 저도 수식을 무시하고 논문을 보는지라...이면의 심오한 의미는 모르겠고, x를 찾아내는데는 관심이 있는 것도 아니고 (적절하게 변량차원을 줄여서 눈으로 구별해낼 만한 cluster들을 찾는게 목적, PCA는 포기했어요), ICA랑 clustering이랑 어떻게 스토리를 만들어가야하나 고민하던차에, CS에 관한 포스팅을 본거죠. :)

    A와 b에 대한 견해 고맙습니다. A는 늘 signal dependent하다고 봐요. A를 estimation하고 싶다는 생각에서 말이죠. PCA랑 *let들의 차이는 A에 대한 template차이라 생각하고, signal-independent해지는 것은 *let space로 변환하면서, coefficient들만 signal-dependent하기에 significant한 몇개 b로도 x를 훌륭히 복원하게 되는거라고, 나름의 생각만 하고 있었답니다.

    마지막 문장 멋지네요. 모든게 regression이란 생각을 하고 있었거든요.

    2007/10/23 21:06 [ ADDR : EDIT/ DEL : REPLY ]
    • 통계 전문가가 그렇게 너무 겸손하게 얘기하면, 비전공자인 나는 여기다 통계 관련 글을 감히 쓸 수가 없지 않겠어? 적당히 겸손하라구. ^^

      천체영상에 ICA적용하는 것에 대한 내용은 내가 관련내용을 몰라서 뭐라 해 줄 말이 없네. ^^

      어찌어찌하다보면 사람들이 다른 길을 따라가다가 결국 같은 목적지에 도착하는 것 같아. 물리, 기계, 전자 전공인 친구들을 만난 적이 있었는데 , 어쩌다 보니 photon diffusion을 이용한 imaging 얘기가 나왔는데 다들 연관된 분야를 하고 있더라고. 너도 10년전에 이런 얘기를 하게 될 줄 누가 알았겠냐고?

      마지막 문장은 내가 한 말이라기보다는 Mallat의 A Wavelet Tour of Signal Processing 책에 Estimations are Approximations 라는 챕터 제목이 있어서 좀 확장시켜 본 말일 뿐…

      2007/10/25 12:22 [ ADDR : EDIT/ DEL ]
  5. oceanide

    문제를 인식하고 해석하고 간결하고 쉽게 설명하는 능력이 출중하다는 것에 100% 동감. 읽어보면서 나름 재미있다는 생각이 들었고 박사는 아무나 되는게 아니라는 생각도 들고.

    말을 많이 하면 무식이 탄로나지만 그래도 궁금해서 질문하나! signal-independent하게 미리 정하는 방법은 어떤 것들이 있고 복원 확률이 높다는 건 어느정도인지? 확률이 높다고 한거보니 100% 복원가능은 아닌거 같기도 하고 ㅡㅡ; 논문을 읽어봐라 이런 댓글이 돌아올거 같다는 ^^

    2007/10/24 16:37 [ ADDR : EDIT/ DEL : REPLY ]
    • 답 잘 알쟎어. (그렇게 맘에도 없는 아부를 해도 소용없다네. ^^) 논문을 보셔. ㅋㅋ. http://www.dsp.ece.rice.edu/cs/ 에 가면 튜토리얼이랑 논문들이 있는데, Richard Baraniuk, A Lecture on Compressive Sensing. (IEEE Signal Processing Magazine, July 2007) 이 일단 좋은 시작점이 될 것 같은데…

      2007/10/25 12:37 [ ADDR : EDIT/ DEL ]
  6. meson

    당췌 무슨 소리일까...

    2007/10/27 04:55 [ ADDR : EDIT/ DEL : REPLY ]
    • 음... 너같은 수치해석 전문가가 이해못하게 쓰여졌으면 잘 못 쓴 포스팅이네. ^^

      2007/10/27 10:39 [ ADDR : EDIT/ DEL ]