필터버블 '네' 임의편집 '아니오'…2차 네이버뉴스 알고리즘 검토결과
2022-01-26 15:48
랭킹알고리즘·추천 동작, 클러스터링 개발·배포 과정 검토
검색 어뷰징 잘 거르지만 심층·비주류 기사 노출 어려워
온라인 대응력 큰 언론사 노출 유리…대안·지역매체 불리
위원회 "운영 원칙, 지향점 구체화"…노출 불균형 개선 권고
검색 어뷰징 잘 거르지만 심층·비주류 기사 노출 어려워
온라인 대응력 큰 언론사 노출 유리…대안·지역매체 불리
위원회 "운영 원칙, 지향점 구체화"…노출 불균형 개선 권고
국내 최대 뉴스서비스인 '네이버뉴스'에서 이용자의 정보 편식을 유발하는 필터버블 문제가 나타날 가능성이 있다. 서비스의 알고리즘 특성상, 인위적인 개입과 수정이 이뤄질 가능성은 희박하지만, 심층기사는 소외되기 쉽다. 소수정예 기자들이 퀄리티 저널리즘을 지향하는 중소규모 언론사가 조명받기가 매우 어렵다. 충분히 많은 사람이 그때 그때 달려들어 많은 기사를 쏟아내는 게 많은 독자를 끌어모으는 데 유리하다. 십여 명의 전문가들이 반년 동안 네이버뉴스의 기사 검색·배열 알고리즘 편향성을 검토해 내린 결론은 이렇게 요약된다.
네이버는 26일 공식 블로그 '네이버다이어리'를 통해 제2차 네이버뉴스 알고리즘 검토위원회의 검토 결과를 공개했다. 제2차 네이버뉴스 알고리즘 검토위원회는 뉴스 검색(랭킹 알고리즘) 서비스, 인공지능(AI) 기반 뉴스 추천서비스인 '에어스(AiRS)', 뉴스 클러스터링 서비스, 코드 개발과 서비스 배포 과정 등을 검토했다.
◆어뷰징 필터링에 최적화된 검색 알고리즘, 심층 기사도 필터링
위원회는 또 "뉴스 검색(그리고 추천) 알고리즘에 적용되는 다양한 자질(feature) 목록과 각각에 대한 가중치로서 작동하는 계수 계산과정을 검토했는데, 특정한 언론사의 이념이나 성향을 우대하는 것이 아니라 송고된 기사 수, 송고 시점 및 기사의 최신성 등 뉴스 생산과 관련된 활동과 (검색된 결과가) 더 관련이 높다"고 평가했다. 이어 "실시간 온라인 이슈 대응에 풍부한 인력 자원을 투자해 많은 기사를 송고할 역량을 갖춘 언론사들이 더 많은 노출 기회를 얻을 수 있다"고 진단했다.
네이버다이어리의 관련 질의응답(Q&A)을 보면 네이버뉴스의 필터버블 문제에 대해 위원회는 "오전에 많은 기사의 유입이 필터버블을 완화시킬 수도 있지만 많은 기사가 같은 주제로 중복돼 들어오면 필터버블 우려가 생길 수 있다"면서 "개인 수준에서는 필터버블 문제가 완화된다고 볼 수 있지만 사회적인 수준에서 장기간에 걸친 필터 효과가 나타난다고 볼 여지가 있다"고 봤다. 필터버블이란 네이버같은 대형 IT기업이 이용자 성향이나 취향에 맞춰 선별된 불균형한 정보 소비를 부추기는 구조적 현상을 지칭한다.
네이버뉴스의 검색 뉴스 품질과 시의성을 측정하기 위해 정의된 '알고리즘 자질'은 2018년 이후 단일 랭킹 모델로 변경돼 설명 가능성이 높아졌고 최근 2년간 코어 모델이 소규모 튜닝 수준으로 업데이트됐다. 위원회는 "학습 데이터 관리 과정에 단순화가 발생할 수 있어 평가자 다양성을 확보할 필요성이 있다"며 "언론사가 말머리, 색인어 등을 부여해 높은 가중치 점수를 받을 수 있는 자질의 사용은 어뷰징을 초래할 수 있으므로 그 영향력을 최소화하는 방안을 고민할 필요가 있다"고 봤다.
위원회는 에어스 추천 알고리즘을 검토한 결과 "추천 자질은 단순 형태 어뷰징에 대처할 수 있다"면서도 "남용의 우려가 있는 것도 사실로 생각돼 실측 자료를 통해 정량 지표를 통해 검토할 필요성이 있다"고 평가했다. 추천 결과에 영향을 주는 모델 가중치 학습방법에 대해서는 "기획·심층 기사에 접근성이 떨어지는 '노출 불균형' 문제가 발생할 수 있다고 지적했는데 네이버는 '심층 기획'이라는 별도 노출 영역을 활용한다는 답변과 기획기사 편집시 추천을 우대할 계획이 있다고 답했다"고 전했다.
Q&A에 따르면 위원회는 네이버뉴스 영역에 인간 편집자가 인위적으로 개입할 가능성은 발견되지 않았다고 판단했다. 위원회는 "학습데이터 구성이 인위적으로 수정되거나 알고리즘을 구성하는 자질이 특정 기간 임의로 수정되기 어렵다는 점을 확인"했다며 "알고리즘의 자질을 변경하고 보완하는 일은 단기간에 수행되기 어렵고 수정 이력이 기록으로 남기 때문에 인위적 개입이 가능하지 않은 환경으로 파악"했다고 설명했다.
◆'인해전술' 통하는 노출구조…뉴스 생태계 고려한 알고리즘 필요
하지만 네이버뉴스의 뉴스 추천과 관련된 중립성을 판단한 결과 위원회는 "전반적인 추천 과정이 송고되는 기사의 양이 많은 언론사에 유리하게 동작하는 것으로 우려되는 부분이 존재한다"고 보고 "동일 계열사에 의한 같은 내용의 뉴스 송고가 가져오는 결과에 대한 검토가 필요하다"고 지적했다.
위원회는 이에 더해 "특정 이념 성향의 언론사가 더 많이 노출되도록 설계돼 있지 않아도 (온라인 이슈 대응 역량을 갖춘 대형 언론사의 존재로) 이용자 경험 차원에서 특정 성향 언론사 노출 비중이 높을 수 있다"고 우려했다. 이와 관련해 대안·지역 언론사가 기사 노출 경쟁에 격차가 발생할 수 있음을 지적하고 "뉴스 생태계 문제점을 고려한 뉴스 자질을 개발하고 알고리즘에 도입할 필요성이 있다"고 밝혔다.
위원회는 뉴스 클러스터링의 자질과 알고리즘에 대해서 "특정한 자질의 경우 성능상의 개선 여지가 있다"고 봤다. '단독' 말머리 가점의 남용이나 기사 수가 적을 경우 감지되지 않는 문제가 나타날 가능성 등이다.
◆위원회, 뉴스 공적 역할 강조…AI 공정성 평가기술 활용 제안
위원회는 검토 결과를 바탕으로 네이버뉴스에 "서비스 원칙과 지향점에 관한 사항을 구체적으로 서술해 사회적 책무와 신뢰에 대한 알고리즘 영향 평가의 연장선상에서 서비스를 수행할 것"을 권고하고 이 서비스의 공적 역할을 강조했다. 어뷰징과 저품질 뉴스 필터링에 최적화된 알고리즘 때문에 심층성과 대안·지역 언론사 뉴스 노출이 잘 되지 않을 수 있으므로 '지역별 뉴스 추천 서비스' 등 보완책이 필요하다고 덧붙였다.
위원회는 뉴스 생산자의 온라인 대응역량에 의한 결과적 불균형을 개선할 방안 마련, 모델의 학습데이터에 대한 추가 평가, 뉴스 알고리즘 개선에 대한 사용자 평가, 새로운 알고리즘 적용에 대한 분석과 연구, 학습데이터 공개 등을 권고했다. 설명가능한 AI의 공정성을 평가하는 기술을 활용해 추천 알고리즘을 개발하는 방안도 제안했다.
이번 위원회의 네이버뉴스 알고리즘 검토 결과는 작년 8월부터 최근까지 6개월간 네이버뉴스 알고리즘에 대한 기술문서, 질의응답과 제1차 검토위원회 이후 변화된 서비스 환경, 알고리즘 자질 변경 설명, 코드 개발과 서비스 배포 과정 등을 검토하고 위원 간 토론과 이견 조율 과정을 거쳐 나온 것이다. 위원회는 한국언론학회, 한국언론정보학회, 한국정보과학회 언어공학연구회, 한국정보과학회 인공지능소사이어티에서 추천받은 위원 12명으로 구성됐다.