![]() |
|
||||||||
경고! 게시물 작성자의 사전 허락없는 메일주소 추출행위 절대 금지 |
|
미노님께 : 형태소 분석기요.. 신조어는 기본이고요.. 띄어쓰기 틀린것과 단어 틀린것 까지 들어 가면, 거의 인공 지능 수준으로 처리 해야 합니다.
예를 들면 "곱셈"을 "곱셉"으로 오타가 들어가 있다면 이걸 명사로 봐야 하는지 아니면 곱셉이 맞는건지에 대한 평가도 해야 하고요... 띄어쓰기가 틀리면 형태소 분석 개판으로 나옵니다. 물론 제가 실력이 딸려서 띄어쓰기 보정 루틴에서 해결 못해서 나온 문제이기도 하지만, 기본적으로 컴퓨터는 GIGO(Garbage In Garbage Out)이 잖아요.. 원문이 좋아야 결과도 좋다고 전 생각 합니다.^^ (실력이 딸리는것도 좀 이유가 되고요^^) 예전에 형태소 분석기와 패턴매칭 알고리즘을 이용해서 메일 자동 분배 및 자동 응답 솔루션을 개발했던적이 있었는데, 그때 가장 골칫거리였던게 신조어였습니다. 결국 어느정도의 띄어쓰기를 보정해주고 기본 단어에서 파생된 신조어는 동의어 사전으로 관리하는 방식으로 갔었죠. 예를 들어 '비밀번호'를 복합명사로 형태소 분석기에 등록하고 동의어로 '비번','패스워드', '패쑤워드', '암호', 'password', 'pw' 등으로 관리를 했었습니다. 이게 그럴듯해 보이긴 해도 경험상 한 사이트에서 6개월 정도가 지나면 단어사전을 꾸준히 갱신해야 하는 말 그대로 노가다성 업무로 바뀌더군요. 그만큼 신조어 생성이 빠르고, 초딩에서 고딩들이 즐겨찾는 사이트의 경우는 말그대로 죽음입니다. 띄어 쓰기의 경우는 크게 문제 된 적은 없었습니다. 다만, 간혹가다 A4용지의 내용을 몽땅 붙여서 질의를 하는 경우를 제외하곤...
알고리즘의 문제이지 맞춤법이나 표준어와 크게 상관 없는 문제라고 봅니다.
지금은 형태소만 분석하는 단순한 낱말의 뜻을 구분하는 수준에 머무니까 문제가 생긴다고 봅니다. 인간처럼 문맥을 분석하는 능력이 들어가야 진정한 의미에 분석이라 할 수 있겠죠. 본문의 예처럼, "기자 끈키가 보통이 아니다."와 "기자 끈기가 보통이 아니다."의 차이점은 앞 뒤의 문맥을 파악해보면 알 수 있습니다. "기자가 참 열심히 한다"에 이어지는 말이라면, 후자의 뜻이 되겠고, "기자질 해먹기 힘들다"에 이어지는 말이라면 전자의 뜻이 되겠지요. 윗분들 댓글처럼 언어는 계속적으로 변하기 때문에 표음문자가 표음문자의 구실을 못하는 사태는 생기지 않았으면 합니다. '삭월세'의 뜻 -> '사글세'의 잘못 사람들이 다 사글세라고 잘못 쓰면 사글세가 표준어가 되는 겁니다. 어제도 서치테크놀러지서밋2009 세미나에 다녀왔습니다만..
세계적으로도 시멘틱검색이 이슈이기는 합니다만.. 그냥 이슈이기만하고 아무런 성과는 없다고 해도 과언이 아닙니다. 글은 언어를 기호로 표현한 것이고 언어는 생각을 표현한 것이고 생각은 세상의 모든 부분 + 사람들이 정의한 모든 지식을 소재로 할 수 있으므로 결국 세상만사를 모두 논리적으로 정리하는 온톨로지가 완성이 되어야만 완벽한 문장 분석을 할 수 있다는건데.. (아휴~ ^^; ) ... '삭월세'의 뜻 -> '사글세'의 잘못이라는 말은.. '삭월세'가 틀렸고 '사글세'가 맞다는 뜻입니다. 관련 글 리스트
|
Copyright © 1999-2015, borlandforum.com. All right reserved. |
한글만 알고 한국어를 모르는 외국인에게 "높이"의 발음을
듣고 받아적어 보라고 하면 "높이"라고 적을까요? 아니면 "노피"라고
적을까요? 그리고 "높이"라는 단어를 발음해 보라고 하면 "노피"라고
발음할까요? 아니면 "-높-이-"라고 발음할까요?
소리글자인 한글에 뜻을 부여함으로써 철자와 발음이 괴리되는 현상이
발생하게 됩니다. 이는 한국어가 영어과 같은 문제를 가질 수 밖에
없다는 점을 뜻합니다. 즉 발음에 해당하는 철자를 배워야 한다는 점이죠.
따라서 한글의 가장 우수한 특징을 잃어버릴 수 밖에 없습니다.
원래 소리나는 대로 적으면 외국인도 철자를 따로 외울 필요가 없을 것입니다.
그래서 얻은 게 큰만큼 잃은 것도 크다고 생각합니다. 물론 얻은 게 더
많다고는 생각하지만...
형태소분석기는 신조어 관리만 잘해주면 되지 않을까요?