<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet href="http://pimg.daum-img.net/whsnake/css/atom.css?ver=1.0" type="text/css"?>
<feed xmlns="http://www.w3.org/2005/Atom" version="1.0" >
  <title>언어처리와 검색</title>
  <link rel="alternate" type="text/html" href="http://blog.daum.net/nlpir"/>
  <link rel="self" type="application/atom+xml" href="http://blog.daum.net/xml/atom/nlpir"/>
  <rights>Ernie</rights>
  <author>
    <name>Ernie</name>
    <uri>http://blog.daum.net/nlpir</uri>
  </author>
  <generator uri="http://blog.daum.net" version="1.0">Daum blog (blogmaster@daum.net)</generator>
  <id>tag:blog.daum.net,2009:nlpir</id>
  <updated>2008-07-04T19:31:49Z</updated>

  		<entry>
	    <title>쓰면 쓸 수록 놀라운 Google</title>
		<link rel="alternate" type="text/html" href="http://blog.daum.net/nlpir/15018067"/>
		<id>tag:blog.daum.net,2009:nlpir.15018067</id>
	    <author>
		    <name>Ernie</name>
	    </author>
	    <updated>2008-07-04T19:31:49Z</updated>
	    <published>2008-07-04T19:31:49Z</published>
	    <content type="html">
	    	&lt;P&gt;코딩할 때 문법을 외워서 하는게 아니라 필요할 때마다 인터넷에서 찾아서&amp;nbsp;쓰는 편인데, 프로그래밍 관련 검색을 할 때는 주로 google이나 yahoo!를 쓴다. Firefox 우상단의 검색창을 이용해 빠르게 필요한 걸 Google이나 Yahoo!에서 검색한다. 그런데 Google은 쓰면 쓸수록 감탄하게 된다. 오늘 겪었던 실제 사례 두 가지를 정리.&lt;BR&gt;&lt;BR&gt;사례 1. 평생 처음 php 코딩을 하게 돼서 간단한 문법도 모르는 것 투성이라 PHP의 for 형식을 찾고자 했다. Google로 찾았더니 &quot;PHP for &lt;SPAN style=&quot;COLOR: rgb(0,33,176)&quot;&gt;&lt;STRONG&gt;loop&lt;/STRONG&gt;&lt;/SPAN&gt;&quot;으로 질의 확장을 한 후 검색을 하여 두번째 섹션에 보여준다. 적절한 질의 확장과 적절한 presentation에 감탄 감탄.&lt;BR&gt;&lt;BR&gt;&lt;A href=&quot;javascript:realImgView('http://cfs12.blog.daum.net/original/11/blog/2008/07/04/19/25/486dfa984da88&amp;filename=gfor.png')&quot;&gt;&lt;IMG style=&quot;WIDTH: 578px; HEIGHT: 576px&quot; height=574 hspace=0 src=&quot;http://cfs12.blog.daum.net/image/11/blog/2008/07/04/19/25/486dfa984da88&amp;filename=gfor.png&quot; width=357 border=0&gt;&lt;/A&gt;&lt;BR&gt;&lt;BR&gt;&lt;/P&gt;
&lt;P&gt;for 같은&amp;nbsp;어휘는 일반적인 분야의 문서에서 전치사로 자주 나오는 단어이다. PHP같은 프로그래밍 언어이름과는&amp;nbsp;바로 붙어 문서에서 나오는 일이 적기 때문에 'PHP for'를 붙은 두 단어라고 고려하고 키워드간 거리를 고려하여 검색을 하면 적절한&amp;nbsp;결과를 보여주기 힘든 질의.&lt;/P&gt;
&lt;P&gt;&lt;BR&gt;이는 실제 Yahoo!의 결과를 보면 알 수 있다. -_-; &lt;/P&gt;
&lt;P&gt;&amp;nbsp;&lt;/P&gt;
&lt;P&gt;Yahoo!는 소심하게 &quot;Also Try&quot;로 &quot;php for loop&quot;을 보여주지만 검색 결과를 보려면 다시 한번 클릭해야 한다. 이 경우 실제로는 클릭이 단지 한번 더 느는게 아니라 처음 나온 검색 결과를 다 훑은 다음에 클릭을 하고, 다시 페이지를 훑어야 하기 때문에 원하는 검색 결과를 얻기까지는 적지 않은 시간이 걸린다.&lt;/P&gt;
&lt;P align=left&gt;&amp;nbsp;&lt;/P&gt;
&lt;P align=left&gt;&lt;A href=&quot;javascript:realImgView('http://cfs12.blog.daum.net/original/25/blog/2008/07/04/19/25/486dfa9989e5c&amp;filename=yfor.png')&quot;&gt;&lt;IMG style=&quot;WIDTH: 574px; HEIGHT: 611px&quot; height=611 hspace=0 src=&quot;http://cfs12.blog.daum.net/image/25/blog/2008/07/04/19/25/486dfa9989e5c&amp;filename=yfor.png&quot; width=517 border=0&gt;&lt;/A&gt;&lt;/P&gt;
&lt;P align=left&gt;&amp;nbsp;&lt;/P&gt;
&lt;P align=left&gt;&amp;nbsp;&lt;/P&gt;
&lt;P align=left&gt;사례2: 오전에는 php로 아장아장 프로그래밍을 하다가 오후에는 Perl로 코딩을 하게 됐다. 잘 안쓰는 ` (역따옴표?)의 리턴값이 있는지 알고 싶어서 google에서 검색을 해봤다. 이 ` 역시 질의 normalization같은 것을 할 때 잘 무시되는 기호라 과연 검색이 잘될까 의심을 하면서 Google에 넣어봤는데...&lt;/P&gt;
&lt;P align=left&gt;&amp;nbsp;&lt;/P&gt;
&lt;P align=left&gt;&lt;A href=&quot;javascript:realImgView('http://cfs12.blog.daum.net/original/18/blog/2008/07/04/19/25/486dfa98da411&amp;filename=gvt.png')&quot;&gt;&lt;IMG hspace=0 src=&quot;http://cfs12.blog.daum.net/image/18/blog/2008/07/04/19/25/486dfa98da411&amp;filename=gvt.png&quot; border=0&gt;&lt;/A&gt;&lt;/P&gt;
&lt;P align=left&gt;&amp;nbsp;&lt;/P&gt;
&lt;P align=left&gt;대단한 Google. `를 '&lt;STRONG&gt;backtick&lt;/STRONG&gt;'이라고 표현하며 검색 결과를 보여준다. 솔직히 이 결과가 제대로 나올 거라곤 상상도 못했다. &lt;/P&gt;
&lt;P align=left&gt;&amp;nbsp;&lt;/P&gt;
&lt;P align=left&gt;혹시나 싶어 Yahoo!에서 검색해봤더니 기대 했던대로 `가 무시된 결과가 나온다. 이번엔 Also Try도 없다. &lt;/P&gt;
&lt;P align=left&gt;&amp;nbsp;&lt;/P&gt;
&lt;P align=left&gt;&lt;A href=&quot;javascript:realImgView('http://cfs12.blog.daum.net/original/23/blog/2008/07/04/19/25/486dfa97c511a&amp;filename=yvt.png')&quot;&gt;&lt;IMG hspace=0 src=&quot;http://cfs12.blog.daum.net/image/23/blog/2008/07/04/19/25/486dfa97c511a&amp;filename=yvt.png&quot; border=0&gt;&lt;/A&gt;&lt;/P&gt;
&lt;P align=left&gt;&amp;nbsp;&lt;/P&gt;
&lt;P align=left&gt;가려운 곳을 제대로 긁어주는 검색이 제대로 된 검색이라고 생각하는데 Google은 제대로 해준다는 생각. 저걸 일일이 사람이 만들어 넣은 정보를 바탕으로 하는지, 데이터마이닝을 통해 하는지는 몰라도.&lt;/P&gt;&lt;br&gt;&lt;br&gt;tag : &lt;a href=&quot;/_blog/tagArticleList.do?BLOGID=07Pti&amp;amp;tagName=검색&quot; rel=&quot;tag&quot; target=&quot;_blank&quot;&gt;검색&lt;/a&gt;,&amp;nbsp;&lt;a href=&quot;/_blog/tagArticleList.do?BLOGID=07Pti&amp;amp;tagName=Yahoo&quot; rel=&quot;tag&quot; target=&quot;_blank&quot;&gt;Yahoo&lt;/a&gt;,&amp;nbsp;&lt;a href=&quot;/_blog/tagArticleList.do?BLOGID=07Pti&amp;amp;tagName=Google&quot; rel=&quot;tag&quot; target=&quot;_blank&quot;&gt;Google&lt;/a&gt;
	    </content>
	    	</entry>
    	<entry>
	    <title>구글 clustered 검색 결과</title>
		<link rel="alternate" type="text/html" href="http://blog.daum.net/nlpir/14483520"/>
		<id>tag:blog.daum.net,2009:nlpir.14483520</id>
	    <author>
		    <name>Ernie</name>
	    </author>
	    <updated>2008-04-21T14:02:01Z</updated>
	    <published>2008-04-21T14:02:01Z</published>
	    <content type="html">
	    	구글에서 tanh를 검색했더니 clustered 검색결과가 보여지더라.&lt;br&gt;&lt;br&gt;대충 상단은 수학용어 tanh에 대한 결과, 중간은 tanh의 연관검색어(?)인 hyperbolic tangent에 대한 결과, 그리고 제일 하단은 컴퓨터에서 사용하는 함수인 tanh에 대한 결과다.&lt;br&gt;&lt;br&gt;&lt;br&gt;&lt;span&gt;&lt;p align=&quot;left&quot;&gt;&lt;a href=&quot;javascript:realImgView('http://cfs11.blog.daum.net/original/21/blog/2008/04/21/14/00/480c1f4d2a5da&amp;filename=googletanh.bmp')&quot;&gt;&lt;img src=&quot;http://cfs11.blog.daum.net/image/21/blog/2008/04/21/14/00/480c1f4d2a5da&amp;filename=googletanh.bmp&quot; border=&quot;0&quot; hspace=&quot;0&quot;&gt;&lt;/a&gt;&lt;/p&gt;&lt;p align=&quot;left&quot;&gt;&amp;nbsp;&lt;/p&gt;&lt;/span&gt;&lt;br&gt;&lt;br&gt;tag : &lt;a href=&quot;/_blog/tagArticleList.do?BLOGID=07Pti&amp;amp;tagName=Google&quot; rel=&quot;tag&quot; target=&quot;_blank&quot;&gt;Google&lt;/a&gt;
	    </content>
	    	</entry>
    	<entry>
	    <title>Named Entity 인식을 이용하여 Y! Shortcuts 컨텐츠를 블로그에 삽입</title>
		<link rel="alternate" type="text/html" href="http://blog.daum.net/nlpir/13549258"/>
		<id>tag:blog.daum.net,2009:nlpir.13549258</id>
	    <author>
		    <name>Ernie</name>
	    </author>
	    <updated>2008-01-13T21:00:14Z</updated>
	    <published>2008-01-13T21:00:14Z</published>
	    <content type="html">
	    	블로거가 Word Press를 통해 글을 쓰면 자동으로 글 속에 나타나는 Named Entity (한국말로 '명칭'. 도시명, 나라명, 조직명, 인명, 회사명 등... ) 인식을 한 후 이에 대한 적절한 컨텐츠를 찾아 블로그에 쉽게 삽입할 수 있게 해주는 플러그인이 야후!에서 나왔다.&lt;br&gt;&lt;br&gt;재미있는 플러그인인데, 한국어 named entity 인식 엔진도 데모에서 보여지는 성능만큼 될까?&lt;br&gt;&lt;br&gt;&lt;br&gt;tag : &lt;a href=&quot;/_blog/tagArticleList.do?BLOGID=07Pti&amp;amp;tagName=NLP&quot; rel=&quot;tag&quot; target=&quot;_blank&quot;&gt;NLP&lt;/a&gt;,&amp;nbsp;&lt;a href=&quot;/_blog/tagArticleList.do?BLOGID=07Pti&amp;amp;tagName=Yahoo&quot; rel=&quot;tag&quot; target=&quot;_blank&quot;&gt;Yahoo&lt;/a&gt;
	    </content>
	    	</entry>
    	<entry>
	    <title>Naive Bayes Classifier</title>
		<link rel="alternate" type="text/html" href="http://blog.daum.net/nlpir/12943000"/>
		<id>tag:blog.daum.net,2009:nlpir.12943000</id>
	    <author>
		    <name>Ernie</name>
	    </author>
	    <updated>2007-11-06T11:30:59Z</updated>
	    <published>2007-11-06T11:30:59Z</published>
	    <content type="html">
	    	요즘 농한기(-_-)라 시간이 좀 남아 Manning등이 쓴 &lt;a href=&quot;http://www-csli.stanford.edu/%7Ehinrich/information-retrieval-book.html&quot;&gt;Introduction to IR&lt;/a&gt;을 읽기 시작했다. 틈틈이 읽어 진도는 많이 못나갔지만 재미있게 읽고 있다. 책 이름대로 기초를 다루고 있는 책이라고는 하지만 몰랐던 것도 있고 잊고 있었던 것을 체크하는 재미도 좋다. 13장 문서분류 챕터부터 읽기 시작했는데 체크해 둔 것.&lt;br&gt;&lt;br&gt;- 베르누이 모델 (이항 모델)은 multinomial NB 모델에 비해 긴 문서를 분류하는데 오류가 많을 수 있음.&lt;br&gt;&lt;br&gt;- Table 13.3에서 multinomial 모델은 토큰 생성 모델이고 bernoulli 모델은 문서 생성 모델이라는데 이해가 안감. 어차피 양쪽 다 순서에 무관하기 때문에 토큰 생성 모델 아닐까?&lt;br&gt;&lt;br&gt;- 베르누이 모델은 concept drift에 견고&lt;br&gt;&lt;br&gt;- 카이스퀘어가 MI보다 rare term을 자질 (많은 문서에 나타나지 않으나 중요한 자질) 로 선택하는 경우가 많음. 따라서 적은 수의 자질에서는 MI를 이용한 분류 성능이 더 좋음&lt;br&gt;&lt;br&gt;&lt;br&gt;tag : &lt;a href=&quot;/_blog/tagArticleList.do?BLOGID=07Pti&amp;amp;tagName=분류&quot; rel=&quot;tag&quot; target=&quot;_blank&quot;&gt;분류&lt;/a&gt;,&amp;nbsp;&lt;a href=&quot;/_blog/tagArticleList.do?BLOGID=07Pti&amp;amp;tagName=기계학습&quot; rel=&quot;tag&quot; target=&quot;_blank&quot;&gt;기계학습&lt;/a&gt;
	    </content>
	    	</entry>
    	<entry>
	    <title>네이버가 해내는구나, 에디터 맞춤법 검사기</title>
		<link rel="alternate" type="text/html" href="http://blog.daum.net/nlpir/12113778"/>
		<id>tag:blog.daum.net,2009:nlpir.12113778</id>
	    <author>
		    <name>Ernie</name>
	    </author>
	    <updated>2007-07-27T22:19:35Z</updated>
	    <published>2007-07-27T22:19:35Z</published>
	    <content type="html">
	    	2년 반 전에, 회사에 취직하면서 해보고 싶었던 일 중에 하나가 웹에디터용 맞춤법 검사기를 만드는 것이었다. 영문 이메일 사이트의 에디터에 맞춤법 검사기가 다 붙어있는 걸 보면 만들고 싶은 생각이 많이 들었지. &lt;br&gt;그냥 생각으로 그쳤지만 그 동안 이런 서비스가 붙은 웹에디터는 나오지 않고 있었다.&lt;br&gt;&lt;br&gt;그런데 이번에 네이버 블로그 시즌2 에피소드2 (왜 이렇게 어렵게 이름을 붙이는지 원...)에 드디어 맞춤법 검사기가 붙어나왔다. 이런거 보면 역시 네이버란 생각이 든다. 이왕이면 이에 덧붙여 문법검사 기능까지 들어가면 좋겠다. :)&lt;br&gt;&lt;br&gt;ps: 내가 네이버 블로그를 안 쓴다는게 아쉽군.&lt;br&gt;&lt;br&gt;&lt;br&gt;tag : &lt;a href=&quot;/_blog/tagArticleList.do?BLOGID=07Pti&amp;amp;tagName=맞춤법검사&quot; rel=&quot;tag&quot; target=&quot;_blank&quot;&gt;맞춤법검사&lt;/a&gt;
	    </content>
	    	</entry>
    	<entry>
	    <title>Google 한국 블로그의 언어교체검색 서비스 소개를 보며...</title>
		<link rel="alternate" type="text/html" href="http://blog.daum.net/nlpir/11904984"/>
		<id>tag:blog.daum.net,2009:nlpir.11904984</id>
	    <author>
		    <name>Ernie</name>
	    </author>
	    <updated>2007-07-03T00:19:38Z</updated>
	    <published>2007-07-03T00:19:38Z</published>
	    <content type="html">
	    	사용자 질의를 다른 언어로 번역하여 검색을 수행하는 교차어어검색 (Cross Language IR)이라는 연구 토픽이 있다. 다의어 질의를 적절한 대역어로 교체해주는 것이 키포인트. 언젠가 이에 대한 얘기를 후배와 나누며 했던 말: &quot;질의만 번역하면 뭐해, 검색된 결과를 이해할 수 없잖아.&quot;&lt;br&gt;&lt;br&gt;&lt;br&gt;오늘 rss리더를 읽다보니 &lt;a href=&quot;http://googlekoreablog.blogspot.com/2007/07/2007-7-3-12-love-6-2007-google-press.html&quot; target=&quot;_blank&quot;&gt;Google의 '언어교체검색 서비스' 소개글&lt;/a&gt;이 구글코리아 블로그에 실렸다. 잠시 읽어보니 query를 번역해서 검색해 줄 뿐만 아니라 검색 결과도 재번역하여 보여준단다! 역시 Google답네.&lt;br&gt;&lt;br&gt;얼른 &lt;a href=&quot;http://translate.google.com/translate_s?hl=ko&quot; target=&quot;_blank&quot;&gt;접속&lt;/a&gt;해 보니 사용방법에 &quot;뉴욕 식당&quot;이란 쿼리로 예를 들어 놓았다. 그래서 한번 비슷한 &quot;마운틴뷰 식당&quot;이란 쿼리를 던져 봤다. (마운틴뷰는 구글 본사가 있는 도시 이름).&lt;br&gt;&lt;br&gt;그랬더니 나온 결과: &quot;&lt;a href=&quot;http://translate.google.com/translate_s?hl=ko&amp;clss=&amp;q=%EB%A7%88%EC%9A%B4%ED%8B%B4%EB%B7%B0+%EC%8B%9D%EB%8B%B9&amp;sl=ko&amp;tl=en&quot;&gt;마운틴뷰 식당&lt;/a&gt;&quot;. 역시 번역은 어렵다.&lt;br&gt;&lt;br&gt;쿼리를 번역한 결과는 &quot;&lt;span id=&quot;ota&quot;&gt;&lt;span id=&quot;otq&quot;&gt;&lt;b&gt;E fortune [thin] [pyu] dining room&quot;&lt;/b&gt;란다. 무슨 말인지 모르겠다. 재미있는 것은 이 번역 결과 옆에 있는 &quot;검색어 번역 수정하기&quot;란 버튼. 사용자를 이용해서 날로 먹으려는 아이디어, 마음에 든다. :)&lt;br&gt;&lt;br&gt;이 서비스는 Beta라는데 아직은 Google Labs 수준인 듯.&lt;br&gt;&lt;br&gt;&lt;/span&gt;&lt;/span&gt;&lt;br&gt;&lt;br&gt;tag : &lt;a href=&quot;/_blog/tagArticleList.do?BLOGID=07Pti&amp;amp;tagName=Google&quot; rel=&quot;tag&quot; target=&quot;_blank&quot;&gt;Google&lt;/a&gt;,&amp;nbsp;&lt;a href=&quot;/_blog/tagArticleList.do?BLOGID=07Pti&amp;amp;tagName=기계번역&quot; rel=&quot;tag&quot; target=&quot;_blank&quot;&gt;기계번역&lt;/a&gt;
	    </content>
	    	</entry>
    	<entry>
	    <title>스팸 Classifier 평가할 때..</title>
		<link rel="alternate" type="text/html" href="http://blog.daum.net/nlpir/11741440"/>
		<id>tag:blog.daum.net,2009:nlpir.11741440</id>
	    <author>
		    <name>Ernie</name>
	    </author>
	    <updated>2007-06-12T13:26:17Z</updated>
	    <published>2007-06-12T13:26:17Z</published>
	    <content type="html">
	    	댓글 스팸 classifier를 평가할 때 단순히 정확률만을 고려하여 모델을 튜닝하는 것보다는 false negative와 false positive를 구별하여 false positive를 적절히 낮추는걸 목표로 튜닝하는게 필요하지 않을까? &lt;br&gt;&lt;br&gt;Classifier의 false negative 오류 (스팸인데 스팸이 아니라고 판정한 경우)는 사용자가 걸러지지 않은 스팸을 보며 짜증을 좀 내게 하는 정도로 끝나겠지만 false positive 오류 (스팸이 아닌데 스팸이라고 판정한 경우)는 봐야할 댓글을 삭제해버리는 문제를 유발할 수도 있을테니.&lt;br&gt;&lt;br&gt;&lt;br&gt;&lt;br&gt;&lt;br&gt;tag : &lt;a href=&quot;/_blog/tagArticleList.do?BLOGID=07Pti&amp;amp;tagName=스팸&quot; rel=&quot;tag&quot; target=&quot;_blank&quot;&gt;스팸&lt;/a&gt;
	    </content>
	    	</entry>
    	<entry>
	    <title>구글의 Universal Search</title>
		<link rel="alternate" type="text/html" href="http://blog.daum.net/nlpir/11555247"/>
		<id>tag:blog.daum.net,2009:nlpir.11555247</id>
	    <author>
		    <name>Ernie</name>
	    </author>
	    <updated>2007-05-21T01:28:01Z</updated>
	    <published>2007-05-21T01:28:01Z</published>
	    <content type="html">
	    	내가 &lt;A href=&quot;http://blog.daum.net/nlpir/5000587&quot; target=&quot;_blank&quot;&gt;예전부터 생각해오던 일&lt;/a&gt;을 Google은 해내는 구나.&lt;br&gt;&lt;br&gt;근데 이게 쉽지 않지. 예를 들어 쿼리에 대한 이미지의 relevancy와 로컬검색결과의 relevancy를 비교하는게 쉬운게 아닐텐데. 또 Relevancy 계산할 때 뉴스 문서는 최신성, 웹문서는 받는 링크 수, 블로그 포스팅 같은 경우는 이 두개를 다 고려해야 할텐데 이걸 동일 잣대로 비교한다는게 어디 쉬운 일일까?&lt;br&gt;&lt;br&gt;구글도 하다가 안되면 한국의 통합검색(Combo Search)결과 식으로 보여주지 않을까? ㅎㅎ&lt;br&gt;&lt;br&gt;Universal search vs Combo search. 재밌군. :)&lt;br&gt;&lt;br&gt;&lt;br&gt;&lt;br&gt;&lt;br&gt;tag : &lt;a href=&quot;/_blog/tagArticleList.do?BLOGID=07Pti&amp;amp;tagName=구글&quot; rel=&quot;tag&quot; target=&quot;_blank&quot;&gt;구글&lt;/a&gt;,&amp;nbsp;&lt;a href=&quot;/_blog/tagArticleList.do?BLOGID=07Pti&amp;amp;tagName=검색&quot; rel=&quot;tag&quot; target=&quot;_blank&quot;&gt;검색&lt;/a&gt;
	    </content>
	    	</entry>
    	<entry>
	    <title>이제 언론사에서도 스팸을...</title>
		<link rel="alternate" type="text/html" href="http://blog.daum.net/nlpir/10794558"/>
		<id>tag:blog.daum.net,2009:nlpir.10794558</id>
	    <author>
		    <name>Ernie</name>
	    </author>
	    <updated>2007-02-14T17:06:51Z</updated>
	    <published>2007-02-14T17:06:51Z</published>
	    <content type="html">
	    	&lt;span style=&quot;font-family: 돋움; color: rgb(0, 0, 0);&quot;&gt;&quot;네이버검색 ‘직접링크’ 이용 언론사들 ‘검색어 장사’&quot; (http://www.hani.co.kr/arti/society/media/189131.html)&lt;/span&gt;&lt;br style=&quot;font-family: 돋움; color: rgb(0, 0, 0);&quot;&gt;&lt;br style=&quot;font-family: 돋움; color: rgb(0, 0, 0);&quot;&gt;&lt;span style=&quot;font-family: 돋움; color: rgb(0, 0, 0);&quot;&gt;같은 텍스트 데이터라도 소스 (웹문서, 까페, 지식인, 뉴스, 블로그, 등) 별로 랭킹을 하는 방법이 다 다를텐데, 뉴스의 경우는 &quot;최신성&quot;이 랭킹에서 굉장히 중요했을 것이다. 그런데 언론사에서 이런 식으로 기사를 송고해버리면 검색 엔진에서는 이런 유형의 기사를 스팸으로 분류하여 랭킹 자체에서 제거해버리거나 엄청 낮은 랭크를 부여하는 수 밖에 없지.&lt;br&gt;&lt;br&gt;이렇게 해서 검색 결과에서 자사 뉴스가 아예 빠져 버려도 &lt;/span&gt;&lt;font style=&quot;font-family: 돋움;&quot; color=&quot;#006699&quot;&gt;&lt;span style=&quot;color: rgb(0, 0, 0);&quot;&gt;“업데이트는 언론사 본연의 임무”라는 말을 계속 할 수 있을지.&lt;/span&gt;&lt;br style=&quot;color: rgb(0, 0, 0);&quot;&gt;&lt;br style=&quot;color: rgb(0, 0, 0);&quot;&gt;&lt;span style=&quot;color: rgb(0, 0, 0);&quot;&gt;어쨌든 기술이 중요하다. 뉴스 기사 중 저런 걸 스팸으로 분류할 수 있는 기술.&lt;/span&gt;&lt;br&gt;&lt;/font&gt;&lt;br&gt;&lt;br&gt;tag : &lt;a href=&quot;/_blog/tagArticleList.do?BLOGID=07Pti&amp;amp;tagName=검색&quot; rel=&quot;tag&quot; target=&quot;_blank&quot;&gt;검색&lt;/a&gt;,&amp;nbsp;&lt;a href=&quot;/_blog/tagArticleList.do?BLOGID=07Pti&amp;amp;tagName=뉴스&quot; rel=&quot;tag&quot; target=&quot;_blank&quot;&gt;뉴스&lt;/a&gt;
	    </content>
	    	</entry>
    	<entry>
	    <title>야후도 구글처럼 광고랭킹</title>
		<link rel="alternate" type="text/html" href="http://blog.daum.net/nlpir/10605515"/>
		<id>tag:blog.daum.net,2009:nlpir.10605515</id>
	    <author>
		    <name>Ernie</name>
	    </author>
	    <updated>2007-01-25T02:58:45Z</updated>
	    <published>2007-01-25T02:58:45Z</published>
	    <content type="html">
	    	Yahoo! Search Marketing 공식 블로그는 야후!도 2007년 2월 5일부터 미국 시장에서 구글처럼 광고를 랭킹하겠다고 발표했다. 구글처럼 광고를 랭킹한다는 것은 광고주가 배팅한 값(bid)이 높은 순으로만 광고를 랭킹해서 보여주는 것이 아니라 그 광고의 질이 얼마나 좋은지도 함께 고려하여 광고를 랭킹한다는 것&lt;br&gt;&lt;br&gt;&lt;img src=&quot;file:///C:/DOCUME%7E1/chungh/LOCALS%7E1/Temp/moz-screenshot-1.jpg&quot; alt=&quot;&quot;&gt;&lt;br&gt;&lt;span&gt;&lt;p align=&quot;left&quot;&gt;&lt;a href=&quot;javascript:realImgView('http://cfs9.blog.daum.net/upload_control/download.blog?fhandle=MDdQdGlAZnM5LmJsb2cuZGF1bS5uZXQ6L0lNQUdFLzAvMC5naWY=&amp;filename=0.gif')&quot;&gt;&lt;img src=&quot;http://cfs9.blog.daum.net/upload_control/download.blog?fhandle=MDdQdGlAZnM5LmJsb2cuZGF1bS5uZXQ6L0lNQUdFLzAvMC5naWYudGh1bWI=&amp;filename=0.gif&quot; border=&quot;0&quot; hspace=&quot;0&quot;&gt;&lt;/a&gt;&lt;/p&gt;&lt;p align=&quot;left&quot;&gt;&amp;nbsp;&lt;/p&gt;&lt;p align=&quot;left&quot;&gt;위 그림은 Yahoo! Search Marketing 블로그에서 가져온 그림인데, &lt;span style=&quot;font-weight: bold;&quot;&gt;광고 B&lt;/span&gt;는 입찰가가 &lt;span style=&quot;font-weight: bold;&quot;&gt;광고A&lt;/span&gt;보다 낮지만 광고의 질(Quality Index)이 더 좋기 때문에 &lt;span style=&quot;font-weight: bold;&quot;&gt;광고A&lt;/span&gt;보다 상위에 랭킹된다는 걸 설명하는 그림.&lt;/p&gt;&lt;br&gt;&lt;p align=&quot;left&quot;&gt;광고의 질은 두가지 요소로 평가되는데 다음과 같다.&lt;/p&gt;&lt;p align=&quot;left&quot;&gt;&lt;br&gt;&lt;/p&gt;1. 과거 실적: 지금까지 그 광고가 얼마나 클릭이 됐나?&lt;br&gt;2. 기대 실적: 앞으로 이 광고가 얼마나 클릭될 가능성이 높은가? &lt;br&gt;&lt;br&gt;&lt;br&gt;&lt;p align=&quot;left&quot;&gt;&lt;br&gt;&lt;/p&gt;&lt;/span&gt;&lt;br&gt;&lt;br&gt;&lt;br&gt;tag : &lt;a href=&quot;/_blog/tagArticleList.do?BLOGID=07Pti&amp;amp;tagName=검색광고&quot; rel=&quot;tag&quot; target=&quot;_blank&quot;&gt;검색광고&lt;/a&gt;,&amp;nbsp;&lt;a href=&quot;/_blog/tagArticleList.do?BLOGID=07Pti&amp;amp;tagName=Yahoo&quot; rel=&quot;tag&quot; target=&quot;_blank&quot;&gt;Yahoo&lt;/a&gt;
	    </content>
	    	</entry>
    	<entry>
	    <title>Google의 QA서비스</title>
		<link rel="alternate" type="text/html" href="http://blog.daum.net/nlpir/10412445"/>
		<id>tag:blog.daum.net,2009:nlpir.10412445</id>
	    <author>
		    <name>Ernie</name>
	    </author>
	    <updated>2007-01-04T10:34:57Z</updated>
	    <published>2007-01-04T10:34:57Z</published>
	    <content type="html">
	    	지금까지 Google 한국어 블로그에 그다지 재미있는 글이 올라오지 않았는데 어제 Google의 SW Engineer인 Eric 김님이 올린 &quot;&lt;a href=&quot;http://googlekoreablog.blogspot.com/2007/01/qa.html&quot; target=&quot;_blank&quot;&gt;나의 첫 프로젝트 - 한국어 Q&amp;A&lt;/a&gt;&quot;란 글은 꽤나 흥미로웠다. Q&amp;A, 혹은 QA라고 줄여 말하는 Question Answering은 사용자의 질문에 대한 정답을 컴퓨터가 자동으로 찾아주는 서비스. 사용자의 질문에 대한 답을 포함한 문서를 찾는 것이 아니라 답 자체를 찾아준다는 점에서 흔히 말하는 정보검색과 차이가 있다.&lt;br&gt;&lt;br&gt;이 글이 흥미로웠던 이유는 첫째, Google이 이미 QA서비스를 한다는 걸 나에게 알려줬다는 것. 난 이 사실을 몰랐다. &lt;br&gt;&lt;br&gt;둘째로는 Google이 QA를 어떻게 하고 있는지 대략이나마 짐작을 하게 한다는 점. QA를 하는 방법에는 여러가지가 있는데 복잡한 언어처리 과정을 거쳐 문장을 정규화하여 정답을 찾는 방법도 있고, 언어처리를 거의 하지 않고 공기(cooccurrence)같은 통계적 정보를 써서 정답을 찾는 방법도 있다. 전자의 경우는 한국어 localization에 꽤나 많은 노력이 필요할 것이고 후자의 경우는 localization이 크게 어렵지 않을 것이다. 글에서 얼마나 많은 시간을 이 일에 투자했는지는 정확히 나와있지 않지만 언어처리 모듈 localization에 많은 시간이 들어간 것으로 보이진 않는 것을 보면 Google QA 서비스는 위에서 설명한 방법 중 후자의 방법을 사용하는 것으로 추정된다. 하긴 빨리 정답을 찾기 위해선 그래야지.&lt;br&gt;&lt;br&gt;------------------------&lt;br&gt;&lt;br&gt;흠... 이 글을 쓰고 나서 Google에서 Google Q&amp;A에 관한 소개를 읽어보니 내가 생각했던 QA랑은 조금 차이가 있다. 내가 생각한 QA는 unstructured 문서를 지식으로 사용하는 것이었는데, 소개를 보니 structured 문서에 들어있는 정보 - 예를 들어 인구, 수도, 화폐단위 등 - 만을 제공하는 듯. 그러니 localization에 시간이 안걸린거겠군.&lt;br&gt;&lt;br&gt;&lt;br&gt;tag : &lt;a href=&quot;/_blog/tagArticleList.do?BLOGID=07Pti&amp;amp;tagName=Google&quot; rel=&quot;tag&quot; target=&quot;_blank&quot;&gt;Google&lt;/a&gt;,&amp;nbsp;&lt;a href=&quot;/_blog/tagArticleList.do?BLOGID=07Pti&amp;amp;tagName=Question Answering&quot; rel=&quot;tag&quot; target=&quot;_blank&quot;&gt;Question Answering&lt;/a&gt;
	    </content>
	    	</entry>
    	<entry>
	    <title>Daum 일본어문장분석기</title>
		<link rel="alternate" type="text/html" href="http://blog.daum.net/nlpir/10397014"/>
		<id>tag:blog.daum.net,2009:nlpir.10397014</id>
	    <author>
		    <name>Ernie</name>
	    </author>
	    <updated>2007-01-02T16:33:56Z</updated>
	    <published>2007-01-02T16:33:56Z</published>
	    <content type="html">
	    	Daum에서 일본어문장분석기를 서비스한다는 기사를 어디선가 읽고 한 번 써보려고 Daum.net에서 &quot;일본어문장분석기&quot;로 검색을 했다.&lt;br&gt;&lt;br&gt;Daum 검색 결과에서 랭킹 1위로 나온 문서는 &quot;&lt;a href=&quot;http://blog.daum.net/dicmanager/1074961&quot; target=&quot;_blank&quot;&gt;&lt;b&gt;국내 최고 일어사전, Daum일어사전~!&lt;/b&gt;&lt;/a&gt;&quot;라는 Daum사전 공식 블로그의 최근글. 그런데이 블로그에는 일본어문장분석기 서비스의 주소는 나와 있지 않았다. ㅠㅠ. &lt;br&gt;&lt;br&gt;한참 헤매다 보니 8번째 검색 결과에 나오더라. &lt;span style=&quot;background-color: rgb(209, 253, 136);&quot;&gt;Daum서비스를 Daum 검색에서도 찾기 힘드니 거참 암울하다&lt;/span&gt;. 앞선 7개의 검색 결과가 다른 회사의 일본어문장분석기에 관한 결과라면 그래도 참을만 할텐데 그렇지도 않다. &lt;br&gt;&lt;br&gt;아래는 검색 결과&lt;br&gt;===================================&lt;br&gt;&lt;span style=&quot;font-weight: bold;&quot;&gt;스폰서링크:&lt;/span&gt;&lt;br&gt;1위. 일본어 동영상 강의 (구글이 제공하는 검색 광고)&lt;br&gt;&lt;br&gt;&lt;span style=&quot;font-weight: bold;&quot;&gt;블로그 검색:&lt;/span&gt;&lt;br&gt;2위. Daum 사전 공식 블로그 (위에 말한 서비스에 대한 링크가 없는 글)&lt;br&gt;3위. Daum 검색 공식 블로그에 올라온 기사 2개. (역시나 링크는 없다.)&lt;br&gt;4위. 미 NSA의 비밀 (이건 왜 올라온거냐?)&lt;br&gt;&lt;br style=&quot;font-weight: bold;&quot;&gt;&lt;div class=&quot;title&quot;&gt;&lt;span style=&quot;font-weight: bold;&quot;&gt;까페 검색:&lt;/span&gt;&lt;br&gt;5위. 일본 라면집 아들의 신라면 리뷰&lt;br&gt;6위. 휴대전화로 개울음 통역? 이엔지 메카&lt;br&gt;7위. 일본 라면집 아들의 신라면 리뷰 (이건 5위 검색 결과와 같잖아. Deduping - 중복검색결과제거 -을 제대로 못하나?)&lt;br&gt;&lt;br&gt;&lt;span style=&quot;font-weight: bold;&quot;&gt;사이트 검색:&lt;/span&gt;&lt;br&gt;8위. Daum 일본어 사전&lt;br&gt;&lt;/div&gt;==========================================&lt;br&gt;&lt;br&gt;Daum 공식 블로그 글 2개 빼놓고는 일본어 분석기와는 별 상관도 없는 검색 결과들. 다른 사이트에서 검색하면 이렇게 나와도 할 말 없겠지만 Daum에서 마저 이러는 건 아쉽다.&lt;br&gt;&lt;br&gt;하여튼 힘들게 힘들게 찾아가 써봤는데 내가 일본어가 약해 신조어 같은 것도 잘 되는지는 모르겠다 (일본어는 카타카나로 신조어 같은 걸 쓰기 때문에 신조어 인식 자체가 어렵지 않으니 문제가 없을까?). 사실 일한 기계 번역 과정의 중간 과정으로 문장 분석 (형태소 분석)을 다 할텐데 이게 독립적으로 나왔다는 게 재미있다. (나 같은 사람한테나 재미있을 수도 있지.)&lt;br&gt;&lt;br&gt;이렇게 생소한 문장분석기를 서비스 하는 이유는 일본어를 초보 학습자를 위한 것이라고 다음사전 공식 블로그에서 말하고 있다. 한국어를 처음 학습하는 외국인을 위한 한국어 형태소 분석기 서비스는 어떨까?&lt;br&gt;&lt;br&gt;아참, Daum 일본어분석기가 들어있는 페이지 주소는 http://jpdic.daum.net/dicjp/view_top.do. 다른 사람이 &quot;일본어분석기&quot;로 검색했는데 이 글에 이 주소 없으면 화낼 것 같다. ^^;&lt;br&gt;&lt;br&gt;&lt;br&gt; 				&lt;br&gt;&lt;br&gt;tag : &lt;a href=&quot;/_blog/tagArticleList.do?BLOGID=07Pti&amp;amp;tagName=Daum&quot; rel=&quot;tag&quot; target=&quot;_blank&quot;&gt;Daum&lt;/a&gt;,&amp;nbsp;&lt;a href=&quot;/_blog/tagArticleList.do?BLOGID=07Pti&amp;amp;tagName=문장분석기&quot; rel=&quot;tag&quot; target=&quot;_blank&quot;&gt;문장분석기&lt;/a&gt;
	    </content>
	    	</entry>
    	<entry>
	    <title>MT는 Machine Translation이다.</title>
		<link rel="alternate" type="text/html" href="http://blog.daum.net/nlpir/10395528"/>
		<id>tag:blog.daum.net,2009:nlpir.10395528</id>
	    <author>
		    <name>Ernie</name>
	    </author>
	    <updated>2007-01-02T13:36:13Z</updated>
	    <published>2007-01-02T13:36:13Z</published>
	    <content type="html">
	    	정종오 기자의 기사 (http://www.inews24.com/php/news_view.php?g_serial=240826&amp;g_menu=021200) 중 기계번역을 뜻하는 MT는 Machine Transfer가 아니라 Machine Translation이다.&lt;br&gt;
	    </content>
	    	</entry>
    	<entry>
	    <title>Google의 실패: Google Answers</title>
		<link rel="alternate" type="text/html" href="http://blog.daum.net/nlpir/10099062"/>
		<id>tag:blog.daum.net,2009:nlpir.10099062</id>
	    <author>
		    <name>Ernie</name>
	    </author>
	    <updated>2006-11-29T17:11:39Z</updated>
	    <published>2006-11-29T17:11:39Z</published>
	    <content type="html">
	    	&lt;P&gt;오늘 &lt;A href=&quot;http://answers.google.com/answers/&quot; target=&quot;_blank&quot;&gt;Google 공식 블로그&lt;/A&gt;에&amp;nbsp;&lt;A href=&quot;http://answers.google.com/answers/&quot; target=&quot;_blank&quot;&gt;Google Answers&amp;nbsp;&lt;/A&gt;서비스에서 더 이상 질문을 받지 않는다고 발표했다. Google Answers는 쉽게 말해 &quot;유료&quot; 지식검색 서비스다. 더 이상 질문을 받지 않는다는 것은 사실상 서비스를 접는다는 얘기. 단, 지금까지 쌓였던 고급 지식 (돈을 받고 검색을 해줬으니 허술한 답변은 없겠지)은 검색해볼 수 있다.&lt;/P&gt;
&lt;P&gt;&amp;nbsp;&lt;/P&gt;
&lt;P&gt;오래전부터 주윗 사람들이 이런 류의 유료 질의응답 서비스(웹을 통하든, 메신저를 통하든)를 제안했었는데 내 생각에는 별로 성공할 것처럼 보이지 않았다. 결국 Google도 이 서비스는 실패했다. Google이 모든 서비스에 항상 성공하는 것은 아닌 걸 다 알지만 이렇게 명시적으로 서비스를 접는 것을 나는 처음 보았다. &lt;/P&gt;
&lt;P&gt;&amp;nbsp;&lt;/P&gt;
&lt;P&gt;돈을 받는 인터넷 서비스.. 참으로 쉽지 않다.&lt;/P&gt;&lt;br&gt;&lt;br&gt;tag : &lt;a href=&quot;/_blog/tagArticleList.do?BLOGID=07Pti&amp;amp;tagName=Google&quot; rel=&quot;tag&quot; target=&quot;_blank&quot;&gt;Google&lt;/a&gt;,&amp;nbsp;&lt;a href=&quot;/_blog/tagArticleList.do?BLOGID=07Pti&amp;amp;tagName=질의응답&quot; rel=&quot;tag&quot; target=&quot;_blank&quot;&gt;질의응답&lt;/a&gt;
	    </content>
	    	</entry>
    	<entry>
	    <title>less의 버그 (fixed)</title>
		<link rel="alternate" type="text/html" href="http://blog.daum.net/nlpir/10078570"/>
		<id>tag:blog.daum.net,2009:nlpir.10078570</id>
	    <author>
		    <name>Ernie</name>
	    </author>
	    <updated>2006-11-27T16:20:56Z</updated>
	    <published>2006-11-27T16:20:56Z</published>
	    <content type="html">
	    	남이 짜놓은 프로그램에서 출력한 일본어 텍스트가 들어있는 파일을 터미널에서 볼 때 line break이 이상하게 들어가 있어서 버그리포팅을 했는데, 알고보니 less의 버그인 것 같다.&lt;br&gt;&lt;br&gt;&lt;span style=&quot;color: rgb(0, 153, 255);&quot;&gt;http://www.greenwoodsoftware.com/less/bugs.html 의 256번 : &lt;/span&gt;&lt;br style=&quot;color: rgb(0, 153, 255);&quot;&gt;&lt;br style=&quot;color: rgb(0, 153, 255);&quot;&gt;&lt;span style=&quot;color: rgb(0, 153, 255);&quot;&gt;A file containing UTF-8 &quot;composing&quot; or &quot;combining&quot; characters
may not break lines at the correct positions.&lt;/span&gt;&lt;br style=&quot;color: rgb(0, 153, 255);&quot;&gt;&lt;br&gt;&lt;br&gt;Composing or combining charactes가 정확히 뭐를 뜻하는지는 모르겠지만 내 경우가 저 경우인 듯. 위 링크에 따르면 less 388버전에서는 고쳐졌다고 한다. (내가 사용하고 있는 Linux 박스에 설치된 놈은 382였음)&lt;br&gt;&lt;br&gt;&lt;br&gt;&lt;br&gt;&lt;br&gt;&lt;br&gt;&lt;br&gt;tag : &lt;a href=&quot;/_blog/tagArticleList.do?BLOGID=07Pti&amp;amp;tagName=Linux&quot; rel=&quot;tag&quot; target=&quot;_blank&quot;&gt;Linux&lt;/a&gt;,&amp;nbsp;&lt;a href=&quot;/_blog/tagArticleList.do?BLOGID=07Pti&amp;amp;tagName=less&quot; rel=&quot;tag&quot; target=&quot;_blank&quot;&gt;less&lt;/a&gt;,&amp;nbsp;&lt;a href=&quot;/_blog/tagArticleList.do?BLOGID=07Pti&amp;amp;tagName=utf-8&quot; rel=&quot;tag&quot; target=&quot;_blank&quot;&gt;utf-8&lt;/a&gt;
	    </content>
	    	</entry>
      </feed>
