‘스크롤 압박’이라는 인터넷 은어가 있다. 글이 길면 인터넷 브라우저 오른쪽에 있는 ‘스크롤바’를 오랫동안 내려야 하는 ‘압박감’이 생긴다는 뜻이다. ‘스크롤 압박’이 느껴지는 글에는 으레 이런 댓글이 달린다. “3줄 요약 좀.”

국내 최대 포털사이트인 네이버가 3줄 요약 서비스를 뉴스에 적용했다. 지난 11월27일, 네이버 뉴스는 자동요약 기능 시범 서비스를 오픈했다. 버튼 하나만 누르면 아무리 긴 기사도 단 3줄로 요약한다.

〈시사IN〉 제534호 커버스토리 ‘모든 것을 맡겨놓고 아무것도 책임지지 않았다’ 기사를 네이버 뉴스에서 열었다. 기사 제목 아래 조그맣게 ‘요약봇(bot·로봇)’이라는 버튼이 보인다. 이 버튼을 클릭하자, ‘자동 추출 기술로 요약된 내용입니다’라는 설명 아래 기사가 세 문장으로 요약되었다. ‘제주국제공항에서 북동쪽 방향으로 50분쯤 운전하면 제주도가 물 산업 육성을 위해 조성한 용암해수 일반산업단지가 나온다. 업체와 이군이 체결한 근로계약서를 보면 기간만 7월25일에서 2018년 1월30일로 같을 뿐 현장실습 표준협약서와는 판이하다. 표준협약서에서 이군은 현장실습생이지만 근로계약서에는 계약 당사자는 사원으로서 회사의 생산 관련 업무를 담당하게 되어 있다.’ 6260자 분량의 기사를 210자로 축약했다. 기사를 쓴 전혜원 기자는 “첫 문장은 ‘리드’라고 불리는 기사 전체의 첫 문장이 그대로 들어갔다. 나머지 두 문장은 나름 기사의 핵심을 포착한 것 같다”라고 평가했다.

ⓒ시사IN 신선영11월27일 포털사이트 네이버가 뉴스 기사를 요약하는 ‘요약봇’ 서비스 운영을 시작했다. 왼쪽부터 ‘요약봇’ 개발자 은종진·배원식·김영래씨.
네이버는 현재 오피니언(칼럼), 인터뷰, 동영상을 제외한 모든 기사에 자동요약 서비스를 제공하고 있다. 언론사가 네이버에 기사를 송고할 때 인터뷰나 칼럼 기사를 ‘일반 기사’로 설정하면 자동요약 대상이 된다. 네이버 측은 “현재 뉴스 서비스 이용자 1000명당 1명 정도가 요약봇을 이용하고 있다”라고 말했다.

뉴스 요약 서비스는 국내에서 이미 1년 전에 도입됐다. 또 다른 포털사이트 다음은 2016년 11월부터 뉴스 자동요약 서비스를 시작했다. 1800자보다 짧은 기사에만 적용되며, 문장 개수에 상관없이 200자 안팎으로 줄인다. 포털사이트 다음을 운영하는 카카오 측은 “1800자 이내 사실 보도 기사는 이용자에게 더 쉽고 빠르게 전달하는 것을 목적으로 하는 경우가 많다. 심층기획·인터뷰 등 장문 기사는 시간을 들여 꼼꼼히 읽도록 유도하기 위해 원문을 요약하지 않는다”라고 밝혔다.

‘마치 사람처럼’ 처음 보는 문서의 핵심 문장을 추출해낸다는 점에서 네이버 요약봇은 인공지능(AI)의 일종인 머신러닝(Machine Learning) 기술을 쓴다. 네이버에 따르면 요약봇은 주어진 기사를 문장별로 끊어서 어떤 문장이 전체 내용을 가장 잘 담고 있는지 점수를 매긴다. 이때 문장이 서로 이어지지 않고 맥락에서 벗어나는 것을 방지하기 위해 앞뒤 문장을 2개, 3개씩 묶어서 점수를 매긴다. ‘전체 내용을 잘 담고 있다’는 기준은 복합적이다. 반복되는 단어나 문장은 강조의 뜻을 담고 있으므로 핵심 문장일 가능성이 높아 가점이 부여된다. 제목, 부제, 사진 설명에 들어간 단어와 문장도 가점에 반영된다.

ⓒ시사IN 조남진포털사이트 다음은 심층기획·인터뷰 등 장문 기사의 원문은 요약하지 않는다.
요약봇을 좀 더 사람에 가깝게 발전시킬 수 있는 방법이 있다. 피드백이다. 어떤 것이 사람이 할 만한 행동인지, 어떤 것이 ‘정답’인지 반복적으로 알려주면 비약적으로 성능이 개선된다. 알파고가 셀 수 없이 많은 ‘승리한 기보’, 즉 정답지를 바탕으로 학습하는 원리다.

이 점에서 요약봇에는 한 가지 문제가 있다. 바둑의 승패와 달리 ‘잘된 요약’은 한 번에 정의하기 어렵다. 같은 요약문을 보고도 사람에 따라 주관적인 평가를 내릴 가능성도 있다. 네이버 요약봇 개발자 중 한 명인 배원식씨는 “정답지라고 할 만한 평가 데이터가 있으면 요약봇의 성능이 빠르게 개선될 수 있다. 하지만 그 경우 누가 평가하느냐에 따라 결과가 달라질 수 있다”라고 말했다.

다음은 ‘소셜 네트워크 분석’ 활용해 요약

자동요약 기술의 성능을 개선하는 또 다른 방법은 반복이다. 천문학적으로 많은 문서를 테스트하면 정확도가 높아진다. 문서 하나만 요약하기보다 여럿을 묶어서 요약하면 경우의 수가 많아지므로 테스트 수를 늘릴 수 있다. 네이버 측은 “여러 개의 뉴스를 묶어서 요약하면 언론사의 편집권을 침해할 수 있어 조심스럽다”라고 밝혔다.

다음 자동요약 알고리즘은 네이버와 달리 ‘소셜 네트워크 분석(Social Network Analysis)’을 활용했다. 다음 자동요약 알고리즘은 먼저 기사의 제목과 첫 문장을 구분한 뒤 하나 이상의 핵심 키워드를 선정한다. 그런 다음, 핵심 키워드를 중심으로 다른 단어들과의 연관성을 계산해 네트워크를 그린다. 핵심 키워드와 가장 가까운 단어들이 많이 포함된 문장, 즉 핵심 키워드와 ‘연결 중심성’이 높은 문장을 선정해 리드 문장과 함께 정리한다. 다음 측은 “임의로 추가한 키워드 가중치를 사용하지 않는다”라고 밝혔다. 카카오는 이 기술을 2015년 12월 특허로 등록했다.

정보량이 많아진 디지털 시대에 자동요약 기술은 점차 중요해지고 있다. 문서·정보 요약에 필요한 시간과 인력을 줄일 수 있어서 경제적이기도 하다. 거기다 자동요약 기술은 인공지능의 핵심 과제 중 하나인 자연어 처리(Natural Language Processing) 기술 개발과 맞닿아 있다. 요약 자체가 고도의 언어활동이기 때문이다.

해외에서는 단순히 원문을 ‘추출’하는 자동요약이 아니라 새로운 문장을 ‘생성’하는 자동요약 기술이 주목받고 있다. 이 경우 단순한 추출보다 훨씬 많은 정보를 짧게 줄일 수 있어 요약문의 질이 높아진다. 책·논문, 동영상, 여러 문서를 종합하여 요약하는 기술도 추출 요약으로는 한계가 있기 때문에 생성 요약 기술이 핵심이다. 미국의 클라우드 컴퓨팅 서비스 업체 ‘세일즈포스’는 지난 5월11일 “기존 요약 기술보다 품질이 12~16% 향상된 자동요약 기술을 개발했다”라고 밝혔다. 세일즈포스의 개발자들 역시 CNN과 〈데일리메일〉의 뉴스를 테스트 데이터로 사용했다. 세일즈포스 개발자 리처드 소처는 〈포브스〉와 인터뷰하면서 “자동요약은 인공지능의 궁극적인 문제나 다름없다. 우리는 미래를 확보하기 위해 근본적인 인공지능 과제를 연구한다”라고 말했다.

국내에선 ‘뉴스 요약’을 보는 시각이 긍정적이지만은 않다. 편집권 침해 논란 때문이다. 한국은 뉴스를 소비할 때 포털사이트 의존도가 77%에 달한다(〈디지털 뉴스 리포트 2017〉, 한국언론진흥재단). 그만큼 포털 뉴스가 미칠 영향에 민감하다. 현재 요약봇 서비스는 전체 기사에서 비중이 적은 반론 보도 내용이 빠지거나, 정치 기사에서 각 당의 견해가 균형 있게 반영되지 않는 점 등 한계를 지적받는다. 12월7일 송희경 자유한국당 의원과 오세정 국민의당 의원이 공동주최한 ‘포털 뉴스 이대로 좋은가?’라는 정책토론회에서 한국IT법학연구소 부소장 김진욱 변호사(법무법인 주원)는 “알고리즘을 통한 자동요약 시스템이 사실을 왜곡할 수 있다”라고 지적했다. 문화체육관광부 관계자는 “포털 뉴스 자동요약이 신문법상 위반 사항이 있는지 검토 중이다. 언론사의 편집권을 침해하는지 여부를 신중하게 시간을 들여 판단할 예정이다”라고 밝혔다.

이런 논란에 대해 네이버 측은 “요약봇은 원문을 수정하지 않고 그대로 문장을 발췌할 뿐이기 때문에 언론사의 편집권을 침해하지 않는다”라고 밝혔다. 카카오 측은 “뉴스 요약 기능은 언론사와 계약한 내용에 포함되어 있다. 각 언론사에 요약 기능 동의 여부를 확인하고 원치 않는 언론사는 제외했다”라고 밝혔다.

기자명 신한슬 기자 다른기사 보기 hs51@sisain.co.kr
저작권자 © 시사IN 무단전재 및 재배포 금지
이 기사를 공유합니다
관련 기사