검색엔진

Hagi 2009. 10. 26. 14:20

한글                                                                 

 

1. Nutch로 알아보는 Crawling 구조

구글과 같은 검색엔진을 만들때 공부하기 좋은 오픈소스 너치에 대한 입문서로 적당함

※ 링크가 안될 시에는 http://www.joinc.co.kr/modules/moniwiki/wiki.php 에서 좌측 검색 창에서 Crawling 이라 검색 함

 1-1. Hadoop

    1-1-1. MapReduce -> http://www.joinc.co.kr/modules/moniwiki/wiki.php/man/12/MapReduce


검색엔진이나 루씬에 대한 연계가 많이 되어 있는 블로그

 

아파치 루씬 간단하고 쉬운 안내서 (한글)


검색엔진을 연구하셨던 분의 블로그

오픈소스 검색엔진 너치 프로젝트

 

델파이로 만드는 검색엔진

검색엔진 개발자 그룹

검색엔진 루씬 lucene & hadoop <- 이분의 예전 블로그

lucene 쿼리및 검색 분석 

루씬 너치 분석 하나씩 있는 블로그

검색 엔진을 만들어 보자, Nutch

Slide PPT - 검색엔진

정규표현식에 대해 이해가 높으신분의 블로그


Hadoop에 관한 몇몇 글이 있는 블로그  http://www.hadoop.or.kr/ 


http://blog.udanax.org/2009/03/hadoop-install.html


http://hyogrin.tistory.com/25

 

정규표현식에 관한 블로그  정규표현식에 관한 블로그2


 

영문

 

nutch에 대한 설명(한글의 것과 거의 같음, 조금 더 상세)  

 

Nutch 0.9 설치 가이드

How to Setup Nutch and Hadoop

Nutch version 0.8.x tutorial

 

웹 ROBOT WEB-SPHINX

 

http://lucenebook.com/

 

루씬인액션 예제코드  루씬인액션 저자와 독자의 포럼


Hadoop Homepage   http://wiki.apache.org/hadoop/ 


http://lucene.apache.org/mahout/

 

구글 페이지 랭크(순위)

 

여러검색엔진들...

검색엔진 NINE  http://www.verify.com/ http://www.simpy.com/   http://peoplesearch.lycos.com/  http://search.infospace.com/    http://www.bigfoot.com/  

 

 

일문

Nutch 0.9 を Eclipse で実行する方法

Nutch 0.9 - Hadoop 0.10 - チュートリアル

=============================================================================================

@nutch//학술지/잡지=====================
 1  업그레이드 인공지능 테크놀러지,4 :인공지능 킬러 애플리케이션, 검색 /신종호 2009 마이크로소프트웨어. 통권310호 (2009년 8월), pp.160-163 마소인터렉티브 006 ㅁ212  

 

 

 

@lucene//학위논문=======================
1  루씬 라이브러리를 이용한 블로그 검색기 구현 / 양단 대진대 대학원 2009 TM 621.39 -9-624 107호 석사

 

2  Compositional question answering with collaborative strategies = 단순 응답 방법의 협의적 조합을 이용한 복합 질의 응답 / 오효정 한국정보통신대 대학원 2008 TD 600 -8-43

107호 박사   
   
3  Multi Modal Life Log Media 저장 및 검색 시스템 기술 개발 / 김영철 세종대 대학원 2008 TM 621.39 ㄱ772m 107호 석사    
   
4  한국어 정보검색에서 N-GRAM을 이용한 미등록어 색인 방법 / 정종구 서강대 정보통신대학원 2007 TM 005.741 ㅈ299ㅎ 107호 석사

 

5  FCA 기반 계층적 구조 표현을 이용한 문서 통합 기법 / 김태환 한양대 대학원 2007 TM 005.7 ㄱ941f 107호 석사

 

 

@lucene//학술지=========================
1  텍스트 검색 엔진, 루씬(Lucene) :오픈소스 검색 엔진의 세계 /이성호 2008 마이크로소프트웨어. 통권293호 (2008년 3월), pp.322-327 마소인터렉티브 006 ㅁ212      
   
2  객체와 검색 엔진을 매핑하는 컴파스 프레임워크 /이성호 2008 마이크로소프트웨어. 통권294호 (2008년 4월), pp.322-327 마소인터렉티브 006 ㅁ212      
   
3  자바 기반 풀 텍스트 검색 엔진 Lucene,2 /이종희 2005 마이크로소프트웨어. 통권263호 (2005. 9), pp.316-320 마소인터렉티브 006 ㅁ212      
   
4  자바 기반 풀 텍스트 검색 엔진 Lucene,1 /이종희 2005 마이크로소프트웨어. 통권262호 (2005. 8), pp.274-278 마소인터렉티브 006 ㅁ212

 

5 루씬 라이브러리를 이용한 블로그 검색기 설계 (Design of Blog Search Engine using Lucene Library)/양단(Yang Dan) 김양훈(Kim Yang-Hoon) 김국보(Kim Guk Boh) (-, Vol.-

No.-, [2008])      
 
6 Open Source "Lucene"를 활용한 DeskTop PC기반의 분산검색 프로그램/이민수 (-, Vol.- No.-, [2005]) 

 

 

@lucene//세미나자료=========================
1  임시총회 및 춘계학술 발표대회, 2008(제9권 제1호) / 한국인터넷정보학회 주최 ; 서울시립대학교 주관 [한국인터넷정보학회] 2008
:루씬 라이브러리를 이용한 블로그 검색기 설계(Design of Blog Search Engine using Lucene Library) / 양단 ; 김양훈 ; 김국보

 

 

@robot(spider) 형태소 분석기//학위논문================
1  혼합 필터링과 연관 이웃 마이닝을 이용한 개인화 아이템 추천 기법 / 정경용 인하대 대학원 2005 TD 당관미소장 107호 박사    
   
2  문서 분류시 결과 상충 판단 알고리즘 설계 및 구현/ 김상경 중앙대 대학원 2002 TM 001.6425 ㄱ673ㅁ 107호 석사    
   
3  대화형 인덱스 로봇 에어전트의 설계 및 구현/ 박민우 啓明大 大學院 1997 TM 001.535 ㅂ182ㄷ 107호 학위논문(석사)

 

4  멀티에이전트 기법을 이용한 웹로봇 설계 및 성능분석/ 김 원 경희대 대학원 2002 TD 621.38195 ㄱ788ㅁ 107호 박사     
(상) art of java에 나온 크롤러를 개량하는 데 많은 아이디어를 제공하였다. 기존의 문제점을 잘 분석하여 개량한 로봇을 만듬 
5  웹 크롤러를 이용한 주제정보서비스 / 김동조 인하대 공학대학원 2008 TM 전자형태로만 열람 가능함 107호 석사    
   
6  의미분석을 이용한 뉴스 모니터링 시스템의 개발 / 김영훈 고려대 대학원 2007 TM 006.4 ㄱ772ㅇ 107호 석사

 

7  GoogleR을 이용한 해킹 분석 및 방어기법 / 한상준 전북대 정보과학대학원 2005 TM 001.64 ㅎ158g 107호 석사

 

8  웹 크롤러의 성능향상을 위한 동적 스케줄링 지원기법에 관한 연구/ 김영준 대구대 대학원 2003 TM 001.64404 ㄱ771ㅇ 107호 석사    
   
9  한일 인터넷 활용의 효율성 개선을 위한 시스템 통합 방안 연구/ 김문주 동의대 대학원 2003 TM 001.642 ㄱ632ㅎ 107호 석사    
   
10  에이전트와 동적 시소러스를 이용한 지식관리 시스템 설계/ 이봉현 단국대 대학원 2002 TM 001.64 ㅇ719ㅇ 107호 석사

 

11  인터넷 트래픽과 시스템 부하를 줄이는 정보수집방법/ 한병희 홍익대 정보대학원 1999 TM 001.6425 ㅎ157ㅇ 107호 학위논문(석사)    
   
12  신경회로망을 사용한 WWW 문서의 자동 분류/ 허원창 서울大 大學院 1999 TM 001.64 ㅎ178ㅅ 107호 학위논문(석사)

 

13  Memory-based reasoning을 이용한 HTML 문서분류 시스템의 설계 및 구축/ 김시천 亞洲大 大學院 1999 TM 658.4038 ㄱ739m 107호 학위논문(석사)    
   
14  사용자 지향 문서 검색 에이젼트에 관한 연구/ 金載元 高麗大 經營情報大學院 1998 TM 658.4038 ㄱ851ㅅ 107호 학위논문(석사)

 

 


@robot-(spider) 형태소 분석기//학술지================
1  웹 로봇 에이전트의 하이퍼링크 분석기법을 이용한 음란메일 차단 시스템의 구현 /이승만 ;정희석 ;한 상 ;송우석 ;이도한 ;홍지영 ;반의환 ;양준영 2007 정보통신윤리. 통권74호

(2007년 7/8월), pp.34-37 정보통신윤리위원회 384 ㅈ138

 

2 URL 분석을 위한 웹 로봇 구현 및 성능분석 (Implementation and Performance Analysis of Web Robot for URL Analysis)/김원(Weon Kim) 김희철(Hiecheol Kim) 진용옥(Yong

Ohk Chin) (韓國通信學會論文誌, Vol.27 No.3C, [2002])

 

3  구글 해킹 자동 방어 시스템에 대한 연구 및 구현 /이종민 ;강흥식 2005 仁濟論叢. 제20권 제1호 (2005. 2), pp.465-477 仁濟大學校 041.1 ㅇ984ㅇ    
   
4  정확도 높은 검색 엔진을 위한 문서 수집 방법 /하은용 ;권희용 ;황호영 2003 정보처리학회논문지:A 제10-A권 제5호 (2003. 10) pp.469-478 한국정보처리학회 001.6 ㅈ152    
   
5  동적 로봇에이전트를 이용한 주문형 검색엔진의 설계 및 구현 /김 성 外著 2001 정보처리학회논문지: 제8-D권 제5호 (2001. 10), pp.631-636 한국정보처리학회 001.6 ㅈ152    
   
6  웹기반 한글정보검색시스템의 구현 /홍기채·정현수 1999 전자통신동향분석 14,6('99.12) pp.9-21 한국전자통신연구원 621.381 ㅈ147ㅎ    
   
7  사용자 중심의 Web 검색 엔진의 설계 /김홍일·손방용 1996 大眞論叢 4('96.12) pp.455-467 大眞大學校 041.1 ㄷ242

 

 


@robot-(spider) 형태소 분석기//연구논문================
1  전자거래 플랫폼 개발 / 정보통신부 정보통신부 1998 001.644 ㅈ233ㅈ 1층 대출대

2  디지털 액터 제작 사업 사전타당성조사 보고서 과학기술혁신본부 한국과학기술기획평가원 2006