2009/05/01 09:05
네이버가 4월 30일부터 과거신문 서비스를 제공한다고 합니다.
가장 두드러진 특징은 "지면신문"을 그대로 제공한다는 것 입니다.

관련기사: http://www.betanews.net/article/453781
보도자료: NHN홈페이지








아래 정리 내용은 보도자료와 신문기사를 바탕으로 정리했습니다.


ㅁ 서비스매체: 경향,동아,매경
ㅁ 신문데이타 기간: 1976년~1985년 (10년 데이타) 
                          - 정식서비스에서는 1920년~1999년(80년 데이타)
ㅁ 분류방법: 17가지 요소로 분류
                (기사, 광고, 소설, 날씨, 만화, 만평 등)
ㅁ 서비스 특징:
    1) 분류별 선별보기 (ex. 1면만 골라보기, 만평만 골라보기)
    2) 신문넘기기 효과 (비쥬얼 효과)
    3) "한자"를 "한글" 로 변환
    4) 별도의 창으로 텍스트 열어 보기 (세로쓰기 된 신문의 가독성을 높이기 위한 장치)
    5) 신문 원본이미지 + 보정이미지
    6) 기사 전문 텍스트 검색 가능
    7) 검색 키워드에 "하이라이트" 기능 제공 
    8) 기사단위 스크랩기능 지원 - (DNA 서비스 안에서만 북마킹 하는 시스템- 저장 X)
    9) 지면 上 네비게이션 기능
  10) 돋보기 기능
  11) 과거뉴스 캐스트
      - 과거 4월 20일엔 무슨일이?
      - 사진만 모아서 보여주기 등

ㅁ 인력투입: 600명 인력, 총 53만 면, 285만 개 기사 티지타이징 작업 중 







추가>>>

또 다른 생각을 해봅니다. 
네이버는 지난 2년간 이 서비스를 준비해왔다고 합니다. 그리고 500~600명의 인력을 투입해서 이 작업을 해냈다고 합니다. 제가 제 미투데이에 캡쳐해놓은 것은 내일 덧붙이겠지만, 보시면 아시겠지만 굉장한 노가다(?)작업을 해냈습니다. 놀라운 것이다. 단순한 산술식으로 이 작업에 얼마나 많은 비용이 들었는지 원가가 얼마나 될런지 알아보자. 


인건비: 500명 * 100만원/월 (단순한 계산을 위해 알바비는 100만원이라고 칩시다- 현재 최저임금 95만원/월) * 24개월(2년) = 120억 원
저작권료: 100억(저작권료) * 3개 신문사 = 300억 원 (이건 주위에서 주어들은 소문일 뿐 정확하진 않습니다) 

대충 계산해도 420억원 이네요. 사실 알바비는 더 줬을 것 같고, 저작권료는 아마 저 정도 지불했을 것 같습니다. ;;; 신문사들이 일이십억 준다고 해서는 눈 깜빡하진 않겠죠. (경향신문 같은 경우는 많이 어려워서 쌍수환영했을지도 모르겠지만;;;) 게다가 신문사에 IT관련된 기술이 있을리가 없으니 저작권료도 주면서 디지타이징 까지 해주겠다고 하니 쌍수환영이지요. 게다가 신문 뿐 아니라 신문사에서 발행하는 잡지까지 함께 해준다고 하는 기사들도 봤습니다. (기자협회보 기사 중)

문제는 , 당장에 수익모델이 없는 이 서비스에 400억원 가까이 투입은 했는데, 이거 참;; 네이버가 아무리 돈이 많다고 해도 말짱할까요? 생각해보니깐 지난 달에 네이버가 체제를 변경하지 않았겠습니까? 엄청난 투자를 했지만 당장에 수익이 없으니,,,, 자체적으로도 이 서비스를 계속해야 할지 많이 고민하지 않을까 생각합니다. 이제 겨우 3개 신문 10년 치 서비스를 하는데, 앞으로 70년치는 더 해야하고, 게다가 신문사가 저기 3개 밖에 없을까요. 조선일보(조선은 이런 작업을 스스로 할 것 같습니다. "디지틀조선일보"가 있거든요.) 와 중앙일보, 한겨레, 한국경제, 한국일보, 문화일보 등등 대단한 영향력 가진 신문들도 많은데 이 신문들까지도 다 디지타이징 한다고 생각해보면 그 양이 무지막지 하고 투입되야 하는 리소스가 엄청날 것 같습니다. 

게다가 지금은 1976년~1985년 서비스를 하다보니 그나마 OCR(이미지를 스캔해서 문자를 읽어내는 기술)로 기사의 텍스트를 긁어올 수 있었지만, 1920년~1940년 대 신문들은 활자 인쇄가 아니라, 목각인쇄를 했기 때문에 OCR 성공률이 상당히 낮아질 것 입니다. 게다가 레이아웃 디자인이라는 개념도 없던 시절이라 슈퍼울트라초다각형 기사 (12각형 기사 ;;) 들이 등장하게 됩니다. 이렇게 되면 디지타이징에 들어가는 인적, 시간 비용이 당연히 증가될 수 밖에 없겠죠. 

그동안 네이버 랩(lab.naver.com)을 자주 들락거리면서 이것 저것 해봤는데요. 정말 이번 DNA서비스는 그간의 네이버 랩의 연구가 다 투입된 것 같습니다. 


  • OCR: 스캔한 신문에서 텍스트를 긁어 냄 
  • 자동 띄워쓰기: 긁어낸 텍스트에서 띄워쓰기를 검사 함
  • 언어변환기: 한자를 한글로 자동 변환해줌



네이버 DNA의 가치>>>

네이버 DNA 서비스의 가치를 생각해봤습니다. 저는 네이버의 이 놀라운 노력이 엄청난 의미가 있다고 생각합니다. 마치 8만 대장경을 파내듯 한 장 한 장 수작업으로 이렇게 기사를 편집했다니... 정말 대단합니다. 사실 이런 노력이 가상하다고 칭찬을 그칠 건 아닙니다. 

2000년 대 이전에는 한국에 웹이라는 것이 있었을까요? 물론 PC통신은 그 전에도 있었지만. 웹에 남는 "기록"이라는 것은 2000년 대 이전의 기록은 거의 없다고 봐야할 것 같습니다. 그런데 네이버의 이 DNA작업을 통해 1980년대 부터 과거로 거슬러올라 1970년 대까지 굵은 줄기의 소통의 끈이 생긴 것 같습니다. 이제 사람들은 DNA서비스의 "공감게시판" 혹은 자신의 블로그 등을 통해서 신문에 다 나오지 않은 이야기들을 엮어 가겠죠. 잔 가지들이 그렇게 뻗어 나갈 것 같습니다. 그렇게 잔 가지들이 촘촘히 뻗어나가면 도서관 자료실에서 잠자던 역사가 다시 살아나지 않을까 생각해봅니다. 

다만, 여전히 아쉬운 것은,,,, 
네이버가 신문사와 잘 협의해서, 과거신문의 데이타를 "활용"할 수 있는 방법도 열어줬으면 좋겠습니다. 지금은 이미지 다운로드도 안되고, 텍스트 복사도 안되고, 이메일 보낼 수도 없고,,, 아무 것도 할 수 없습니다. (텍스트 창도 너무 작고요) 활용할 수 없는 컨텐츠가 무슨 의미가 있을까요? 네이버도 이미 잘 알겠죠. 신문사주 들께서 하루 빨리 이해하셨으면 좋겠습니다. 

과거 신문을 돈 받고 파는 것은 정말 쉽지 않을 겁니다. 과거신문에 대한 흥미는 단순히 "흥미"일 뿐, 다수가 매일 같이 들어가서 과거 신문을 들쳐 보진 않을 것 이라는거죠. 가끔, 간혹 들어가서 '즐기는 수준'일 것 입니다. 그런데 거기에 과금을 하려 들면 그마저도 안 하겠죠. (물론 대학에서 연구하는 사람들은 돈을 주더라도 구입하겠지만... 소수에 불과하겠죠. 적어도 다수는 아닐 것입니다. 디지타이징에 투자한 돈에 비하면 절대적으로 소수일테고요) 

그렇다면, 신문사가 나가야할 방향은,,,, 여론의 Seed가 되는 것이라고 생각합니다. 물론 지금도 이 역할은 하고 있지만, 개방적이진 않을 것 같습니다. 뉴스는 철저히 공개하고, 사람들이 신문사의 뉴스를 기반으로 생각을 공유하고 소통하게 하고 데이타를 더 쌓아갈 수 있도록 "BASE"가 되야한다고 생각합니다. 
(이 부분은 앞으로 더 적어보도록 하겠습니다) 





Detail>>>

  • 네이버DNA 아쉬운 점: “종이신문 넘기듯 한 효과”라고 광고했는데, 최소배율에서만 가능함. (최소배율에서는 신문제목도 잘 안 보임으로 거의 쓸모 없는 기능이 됨;; - 종이신문을 넘기는 행위는 적어도 “제목을 훑어보면서 읽는다”는 행위인데, 제목이 안 보이니;;;)(네이버 DNA)2009-04-30 10:52:04
  • 네이버DNA 아쉬운 점: 컨텐츠의 속성분류를 했겠지만, 바둑 같은 기사는 내용을 안보여주고 있다. 흠….;;;;(me2DC 네이버 DNA me2photo)2009-04-30 11:03:06

    me2photo

  • 네이버 DNA: TV편성표 역시 텍스트 내용 없고, 검색도 안됨. 흠 (하긴 이건 검색에서 노이즈에 가까울테니… 많이 고민하셨겠다)(me2DC me2photo)2009-04-30 11:13:36

    me2photo

  • 네이버 DNA: 우와 일러스트 처리된 글자도 잡아내네??? 훌륭하다(me2DC me2photo)2009-04-30 11:14:38

    me2photo

  • 네이버 DNA: 불행히도 텍스트 검색에서 약간의 위치 오차가 발생한다. “you”를 검색했고, f 위에 파란색 하이라이트가 올라온 걸 볼 수 있다(me2DC me2photo)2009-04-30 11:16:39

    me2photo

  • 네이버 DNA: 광고제목도 땄나보다… 게다가 대웅제약 / 미란타;우루사라고 쓴 걸보니.. 이건 틀림없이 일일히 쳐넣은 듯 하다….. 역시 IT는 노가다여(me2DC me2photo)2009-04-30 11:18:39

    me2photo

  • 네이버 DNA: 1면당 6등분 해서 이미지를 불러오는 중, 확대 배율을 높이면 더 많아 지겠지?(me2DC me2photo)2009-04-30 11:21:25

    me2photo

  • 네이버 DNA: 역시 배율을 높이니 이미지 분할이 더 많이 돼 있군…(me2DC me2photo)2009-04-30 11:22:23

    me2photo

  • 네이버 DNA: 프로그램은 플래쉬로 구현 되었군!(me2DC me2photo)2009-04-30 11:22:51

    me2photo

  • 네이버 DNA: 정말 대단한 노가닥 작업! 사진과 기사를 매칭 시켰다. 그런데 사진은 사진대로 따고, 기사는 사진과 기사를 포함시켜서 땄다. 그리고 프로야구 팀 순위표도 하나의 기사로 처리했다(me2DC me2photo)2009-04-30 11:26:36

    me2photo

  • 네이버 DNA: 검수작업을 했다고 하지만, 역시 사람일이라 완벽할 수는 없다. 기사를 일일히 다 읽어볼 수도 없는 노릇이고 ….;; “시민”에서 “ㄴ”받침이 약간 훼손됐다. OCR도 훼손된 글자를 “시미”로 인식했던 것 같다.(me2DC 네이버 DNA me2photo)2009-05-01 09:33:54

    me2photo

  • 30년 전에도 과외는 “열풍”이었군요. ㅎㅎㅎ 그놈의 대학(me2DC me2photo)2009-05-01 09:47:17

    me2photo