[속보] 코로나19 백신 보도, 제목 빌런은... '충격'

2021-10-05

감염병보도준칙을 바탕으로 백신 보도를 객관적으로 평가할 기준을 제시하고, 그 기준을 바탕으로 지난 1년간의 기사들을 분석해 볼 수 있을까요?라는 쏘프라이즈 공모에 대한 응모 작업.


감염병보도준칙을 자연어처리 과업으로 어떻게 변환할 수 있을지 졸견을 적은 뒤, 그 중 한 예로써 기사 표제에 사용되는 표현에 근거한 간단한 보도 기사 분석을 담았습니다.

문제 정의

제시된 문제는 특정한 백신 관련 보도가 한국기자협회에서 제시하는 감염병보도준칙에 충실한지를 기사 내용에서 정량적으로 판단할 수 있는지, 있다면 그 기준은 구체적으로 어떤 것일지에 관한 것으로 이해됩니다. 다시 말해 기사 본문 및 관련된 메타데이터를 입력으로 받아 해당 기사가 보도준칙에 준하는지 위배되는지를 일련의 규칙 또는 통계적 기법으로 예측하는 자연어처리 문제로 생각합니다.

감염병보도준칙은 여러 원칙으로 구성된 목록이기 때문에 각 항목을 살펴보며 코로나19 백신 보도라는 맥락에서 자연어처리 기법으로 ‘번역’할 수 있을지 생각해보았습니다. 제가 전산언어학이나 언론연구 전문가는 아니므로 제 판단에 오류가 많이 있을 수도 있음을 감안하여 읽어주시고, 여러 제언도 환영합니다.

감염병보도준칙 출처: 한국기자협회)

■ 기본 원칙 1. 감염병 보도의 기본 내용
가. 감염병 보도는 해당 병에 취약한 집단을 알려주고, 예방법 및 행동수칙을 우선적, 반복적으로 제공한다.

-> 질병관리청 등 권위 있는 출처 또는 분야 전문가에 의거해 취약 집단(노인층, 호흡기질환자, 재활병원, 장애인 복지시설, 교정기관 등)과 예방법, 행동수칙(거리두기, 마스크 착용, 손 씻기, 손 소독, 얼굴 만지지 않기 등)에 관련된 키워드 목록을 작성할 수 있을 것입니다. 이 목록을 사용해 해당 키워드가 기사 본문에 포함되는지 여부를 판단할 수 있습니다.

다만 감염병을 다루는 모든 기사에 위 내용이 들어가야 한다고 보기는 어려울 것 같습니다. 대신 예를 들어 각 언론사가 일정 기간 동안 특정 감염병에 관련해 내놓은 보도 중 취약 집단, 예방법, 행동수칙 키워드가 포함된 보도의 수 및 비중을 계산하여 비교하는 방법이 있겠습니다. 여기에서 말하는 비중은 간단하게는 뉴스 기사의 수뿐만 아니라 (글자 수로 측정한) 분량, 지면/편성 배치를 일종의 ‘중요도’로 환산한 지수 등까지 여러 방식으로 측정할 수 있겠습니다.

나. 감염병 치료에 필요한 의약품이나 장비 등을 갖춘 의료기관, 보건소 등에 대한 정보를 제공한다.

-> 위 가. 항목과 비슷한 방식으로 의료기관, 보건소, 의약품, 장비 등에 관한 키워드 목록을 활용할 수 있을 것입니다.

다. 감염병 관련 의학적 용어는 일반인들이 이해하기 쉽게 전달한다.

-> 두 가지 측면에서 어려운 문제로 보입니다. 첫 번째는 의학적 용어를 분별하는 것의 어려움입니다. 코로나19처럼 뉴스에 등장하는 신규 감염병에 관련해서는 신조어가 많이 등장하므로, 자연어처리 기법 중 기존에 누적된 언어 데이터를 활용하는 방식은 적용하기 어렵습니다. 따라서 과거 언론 보도나 그 어떤 말뭉치 데이터에 등장한 적 없는 신규 키워드를 인식할 수 있는 비지도학습 기법 및 전문가의 수작업이 필요한 문제가 될 것으로 생각합니다.

두 번째 어려움은 특정 용어가 쉽게 전달되었는지를 판단하는 것입니다. 예컨대 특정 개념의 주변에 위치한 단어, 구문, 문장이 그 개념을 설명하고 있는지 여부를 파악하고, 그뿐만 아니라 그 설명이 ‘쉬운지’ 또한 판단해야 하는 것입니다. 기존 말뭉치에서 많이 쓰이는 어휘는 쉬운 어휘라는 식의 접근이 어쩌면 가능할지도 모르겠습니다. 이독성(readability) 지수를 활용하는 방법 또한 참고(링크 1, 링크 2)할 수 있겠습니다. 그러나 이 항목은 영역 전문가의 정성적 판단이 더 효율적인 사안 아닐까 생각합니다.

2. 신종 감염병의 보도
가. 발생 원인이나 감염 경로 등이 불확실한 신종 감염병의 보도는 현재 의학적으로 밝혀진 것과 밝혀지지 않은 것을 명확하게 구분하여 전달한다.

-> 이것을 자동적으로 판단하기란 어떤 방식으로 가능할지 잘 상상이 되지 않네요…

나. 현재의 불확실한 상황에 대해 의과학 분야 전문가의 의견을 제시하며, 추측, 과장 보도를 하지 않는다.

-> 기사에서 인용문과 정보원을 추출하는 일은 어느 정도 실제 사례가 있는 문제로 보입니다. (뉴스소스, 빅카인즈 등) 추출된 정보원이 의과학 분야 전문가인지 판단하기는 또 다른 문제인데, 기관명이나 직위 등을 과학적 권위의 프록시로 일정 부분 사용할 수 있을 것 같지만 한계 또한 있겠습니다.

다. 감염병 발생 최초 보도 시 질병관리본부를 포함한 보건당국에 사실여부를 확인하고 보도하며, 정보원 명기를 원칙으로 한다.

-> 취재 과정에서 보건당국 확인 여부는 기사 본문에서 확인하기 어렵다고 생각합니다.

3. 감염 가능성에 대한 보도
가. 감염 가능성은 전문가의 의견이나 연구결과 등 과학적 근거를 바탕으로 보도한다.

-> 위에서 언급한 것처럼 인용 정보원을 찾아내는 것은 가능한 것으로 보입니다. 그 인용문이 감염 가능성에 관한 것인지 판단하는 문제는 또 별개이겠습니다.

나. 감염병의 발생률, 증가율, 치명률 등 백분율(%) 보도 시 실제 수치(건, 명)를 함께 전달한다.

-> 발생, 증가, 사망 등의 키워드와 백분율 수치가 인접해서 등장할 때 그 주변에 실제 수치 형식을 띤 숫자 또한 존재하는지 여부를 일련의 불리언 규칙으로 판단할 수 있을 것 같습니다.

다. 감염의 규모를 보도할 때는 지역, 기간, 단위 등을 정확히 전달하고 환자수, 의심환자수, 병원체보유자수(감염인수), 접촉자수 등을 구분해 보도한다.

-> 감염 규모를 나타내는 표현과 지역, 기간, 단위 등의 개념이 인접해서 등장하는지는 객체/키워드 추출과 불리언 규칙을 결합해 판단할 수 있을 것으로 생각합니다.

4. 감염병 연구 결과 보도
가. 감염병의 새로운 연구결과 보도 시 학술지 발행기관이나 발표한 연구자의 관점이 연구기관, 의료계, 제약 회사의 특정 이익과 관련이 있는지, 정부의 입장을 일방적으로 지지하는지 확인한다.

-> 이해관계와 정치적 성향 등은 정량적 접근으로 판단하기 어려울 것 같습니다.

나. 감염병 관련 연구결과가 전체 연구중의 중간 단계인지, 최종 연구결과물인지 여부를 확인한 후 보도한다. (예: 임상시험 중인 약인지, 임상시험이 끝나고 시판 승인을 받은 약인지 구분해 보도)

-> 연구 단계에 관련된 핵심 키워드의 목록을 구축할 수 있다면 연구 관련 보도가 연구 단계 키워드를 포함하는지 판단할 수 있습니다. 그러나 키워드가 존재하는지 여부와 팩트체크되었는지 여부는 또 다른 문제겠죠.

5. 감염인에 대한 취재·보도
가. 불확실한 감염병의 경우, 기자를 매개로 한 전파의 우려가 있기 때문에 감염인을 직접 대면 취재하지 않는다.

-> 취재 방식은 기사 내용을 통해 확인하기 어려운 사안이라고 봅니다.

나. 감염인은 취재만으로도 차별 및 낙인이 발생할 수 있으므로 감염인과 가족의 개인정보를 보호하고 사생활을 존중한다.

-> 기사에서 인명을 추출하는 것은 기술적으로 가능하지만, 그것을 개인정보/사생활 침해와 어떻게 연결하는지는 더 어려운 문제로 보입니다.

다. 감염인에 대한 사진이나 영상을 취재·보도에 활용할 경우 본인 동의없이 사용하지 않는다.

-> 이 역시 기사 내용을 통해 확인하기 어려운 사안이라고 봅니다.

6. 의료기관 내 감염 보도 의료기관 내 감염 확산에 대한 취재·보도 시, 치료환경에 대한 불안감 및 혼란을 고려해 원인과 현장 상황에 대해 감염전문가의 자문과 확인이 필요하다.

-> 취재 프로세스에 관한 내용. 기사 내용을 통해 확인할 수 없습니다.

7. 감염병 보도 시 주의해야 할 표현
가. 기사 제목에 패닉, 대혼란, 대란, 공포, 창궐 등 과장된 표현 사용“국내 첫 환자 발생한 메르스 ‘치사율 40%’… 중동의 공포 465명 사망!”““해외여행 예약 0건”…여행·호텔업계 코로나19 이어 ‘코리아 포비아’ 악몽”
나. 기사 본문에 자극적인 수식어의 사용“지난 2013년 한국 사회를 혼란에 빠트렸던 ‘살인진드기’ 공포가 또다시 수면 위로 떠올랐다.”“온 나라에 사상 최악의 전염병 대재앙을 몰고 온 메르스(중동호흡기질환) 의심환자가 또 발생했다.”“‘코로나19’에 박살난 지역경제…”공기업 역할해라””
다. 오인이 우려되는 다른 감염병과의 비교 “야생진드기 에이즈보다 무섭네…물리면 사망위험 커”“전파력 메르스 ‘1000배’…홍콩독감 유입 땐 대재앙”

-> 7번은 정량적으로 접근하기 가장 쉬운 문제입니다. 주의해야 할 표현의 목록을 작성하고, 그 목록의 표현이 기사 표제 및 본문에 포함되는지 여부를 확인할 수 있습니다.

■ 권고 사항
1. 감염병 발생시, 각 언론사는 특별취재팀을 구성해 감염병에 대한 충분한 사전 교육을 받지 않은 기자들이 무분별하게 현장에 접근하는 일이 없도록 해야 한다.

-> 취재 프로세스에 관한 내용. 기사 내용을 통해 확인할 수 없습니다.

2. 감염병 발생시, 보건당국은 언론인을 포함한 특별대책반(T/F)를 구성해, 관련 정보가 국민들에게 신속하고 정확하게 전달되도록 해야 하고, 위험 지역 접근취재 시 공동취재단을 구성해 기자들의 안전 및 방역에 대비해야 한다.

-> 취재 프로세스에 관한 내용. 기사 내용을 통해 확인할 수 없습니다.

위에서 살펴본 감염병보도준칙은 정량적 기법으로 번역하기 쉬운 것, 어려운 것, 불가능한 것이 섞여 있습니다. 그 중 가장 정량적 접근이 쉬운 7번 준칙에 기반해 기존 언론 보도를 살펴보겠습니다.

자료 정의 및 전처리

이 답변에서는 한국 언론의 백신 관련 보도의 범위를 다음과 같이 한정합니다.

언론사: 네이버뉴스 플랫폼에 2020년부터 2021년 4월 사이 꾸준히 지면기사를 공급한 일간 언론사

‘지면기사’를 기준으로 하기 때문에 방송국, 인터넷 매체 등은 제외하며, 2021년 초부터 네이버뉴스에 지면기사 공급을 시작한 지역신문 3개 또한 제외합니다. 주간지인 중앙SUNDAY 또한 배제합니다. 이 기준에 의거해 조사 대상이 되는 언론사는 다음 20개입니다.

  • 경향신문, 국민일보, 동아일보, 디지털타임스, 매일경제, 머니투데이, 문화일보, 서울경제, 서울신문, 세계일보, 아시아경제, 이데일리, 전자신문, 조선일보, 중앙일보, 파이낸셜뉴스, 한겨레, 한국경제, 한국일보, 헤럴드경제

뉴스 출처로 네이버뉴스를 선택한 것은 가장 많이 쓰이는 종합 뉴스 플랫폼 중 하나라는 점과, 뉴스 본문 및 메타데이터 수집을 손쉽게 할 수 있다는 장점에 근거합니다. 만약 개별 언론사 웹사이트를 돌아다니며 뉴스를 수집한다면 각 언론사 웹사이트 구조에 맞는 데이터 수집 로직을 일일이 개발해야 할 것입니다.

많은 이들이 네이버뉴스 같은 플랫폼에서 지면기사, 방송기사, 인터넷기사를 큰 구분없이 접하는 현재 상황에서 지면기사로 분석 대상을 한정하는 것은 조금 아쉬운 일입니다. 또한 연합뉴스 기사가 전부 배제된 것 역시 중요한 한계입니다. 다만 시간 관계상 이 글에서 매체(지면-방송-인터넷)의 특성에 따른 보도의 차이를 다루지는 않을 것이므로, 지면기사에 집중함으로써 방송이나 인터넷 매체가 지면기사와 비교해 갖는 다른 외부적 요인을 배제할 수 있습니다.

백신 관련 보도: 네이버 뉴스 검색에서 ‘백신’ 검색어로 조회한 기사

네이버 뉴스 검색 결과는 최대 4천 건까지만 볼 수 있기 때문에, 검색 기간을 일 단위로 잡아서 검색 결과 수를 줄여 수집했습니다.

백신 관련 보도를 수집하는 방법으로 ‘백신’ 한 단어만 네이버에서 검색하는 것보다 더 세련된 방법도 있겠지만, 시간 관계상 이 자료를 출발점으로 삼았습니다. 또한 이렇게 조회할 경우 백신과 무관한 기사도 일부 함께 조회되는 것을 확인하여, 전처리 과정에서 ‘백신’ 이외의 코로나-19 관련 어휘가 제목이나 본문에 포함된 기사를 다시 필터링했습니다. 기업공시, 부고, 인사, 국감 등의 단신 기사 또한 제외했습니다. 또한 섹션분류가 ‘2020 총선’, ‘사고’, ‘팩트체크’에 해당하는 기사는 주제와 무관하다고 보고 제외했습니다.

각 기사 본문마다, 본문에서 바이라인과 각종 특수기호 및 구두점을 제거한 문자열을 추가로 저장해두었습니다.

자료 탐색분석

일별 백신 관련 지면기사 수

그림 1: 일별 백신 관련 지면기사 수.

백신 관련 지면기사 수는 주 단위로 증감을 반복하는 기본 사이클을 갖고 있습니다. (일간지는 일요일에 쉬니까요) 또한 2020년 10월 하반기, 2020년 12월말, 2021년 2월말, 2021년 4월말 등 일부 구간에서 증가하는 추세를 볼 수 있으며 이때 백신 관련 이슈가 대두되었을 것으로 예상해볼 수 있습니다.

언론사/언론유형별 기사 섹션 비중

그림 2: 언론사/언론유형별 기사 섹션 비중. 언론유형: 경제지(좌), IT전문지(중앙), 종합일간지(우)

백신 관련 기사의 언론사별 섹션별 비중을 보면 경제지는 경제 기사 비중이 높고 IT지는 IT/과학 기사 비중이 높다는 당연한 사실을 확인할 수 있습니다. 한 가지 눈에 띄는 점은 중앙일보의 오피니언 섹션 기사 비중이 32%로 다른 언론사에 비해 의견이 많은 편이라는 것입니다. 백신 관련 여부와 무관하게 전체 기사 중에서도 오피니언 기사가 원래 저렇게 많은지 궁금해지는 대목입니다.

보다 상세한 자료 탐색 내용 및 인터랙션이 가능한 차트는 위에 링크된 코드를 참조해주세요.

간단한 감염병보도준칙 준수 여부 분석

표제에서 사용하는 표현을 중심으로

감염병보도준칙에서는 감염병 보도시 주의해야 할 표현이 어떤 것인지 설명하고, 그 사례를 제시하고 있습니다. 이 사례로 제시된 표현을 중심으로 하되 관련 보도를 참고하고 수작업을 통해 일부를 추가하여, 아래와 같은 ‘불량 표현’ 목록을 작성했습니다.

  • 패닉, 대혼란, 대란, 공포, 창궐, 악몽, 살인, 최악, 박살, 폭발, 지뢰, 폭탄, 재앙, 메르스, 에이즈, 사스, 뚫렸다, 지옥

아래에서는 위 표현들이 기사 표제에 등장하는 경우를 살펴보도록 합니다. (보도준칙 7항에서는 제목에 나오는 표현과, 본문에 나오는 표현의 사례를 구분하고 있지만, ‘본문에 나오는 표현’ 바로 아래 예시로 기사 표제를 제시하고 있는 것으로 보아 큰 상관은 없는 구분이라고 판단했습니다.)

우선 게시일 기준 2020년 1월 1일부터 2021년 4월 30일까지 수집된 지면기사 중 위의 표현이 사용된 것은 총 559건으로, 언론사별 구성은 아래와 같습니다. 한국경제, 매일경제, 한국일보가 최상위권(가장 많이 사용)에 있으며, 아시아경제, 한겨레, 전자신문이 최하위권입니다.

*   한국경제   49
*   매일경제   45
*   한국일보   43
*   서울경제   39
*   국민일보   36
*   조선일보   35
*   디지털타임스 33
*   문화일보   32
*   헤럴드경제  30
*   동아일보   28
*   파이낸셜뉴스 28
*   머니투데이  27
*   서울신문   25
*   세계일보   22
*   경향신문   19
*   이데일리   19
*   중앙일보   16
*   아시아경제  13
*   한겨레    13
*   전자신문   7

백신 관련 보도 수 대비 위 표현을 표제에 사용한 기사 비중은 아래와 같습니다. 한국일보, 디지털타임스, 문화일보가 최상위권(가장 자주 사용)에 있으며, 경향신문, 한겨레, 전자신문이 최하위권입니다.

*   한국일보   3.44%
*   디지털타임스 3.08%
*   문화일보   3.04%
*   국민일보   2.97%
*   머니투데이  2.97%
*   한국경제   2.80%
*   파이낸셜뉴스 2.41%
*   헤럴드경제  2.41%
*   매일경제   2.36%
*   서울경제   2.29%
*   조선일보   2.23%
*   동아일보   1.97%
*   서울신문   1.92%
*   세계일보   1.65%
*   아시아경제  1.62%
*   중앙일보   1.60%
*   이데일리   1.59%
*   경향신문   1.50%
*   한겨레    1.24%
*   전자신문   1.16%

시기별로 보면 아래와 같습니다.

전체 기사 대비 불량표제 기사 (기간 내 비중)

그림 3: 전체 기사 대비 불량표제 기사 (기간 내 비중)

그림 3의 그래프는 시계열 내 주간 기사 수의 비중을 나타낸 것으로, 파란색은 전체기사, 붉은색은 위의 표현을 제목에 사용한 (‘불량표제’라고 칭하겠습니다) 기사입니다. 전체기사는 “백신”을 검색해서 수집한 지면기사 중 전처리 과정을 거쳐 선별한 것으로 총 24,009건입니다. 전체기사(%)와 소위 불량표제(%)의 수치는 각각 정규화된 값입니다. 다시 말해 기사 건수의 총량(전체기사 24,009, 불량표제 559)이 아니라, 파란색과 빨간색 막대그래프가 각각 표현하는 기사의 총량 중 해당 시계열 구간이 차지하는 비중을 %로 표현했습니다. 그림 3에서는 2020년 2월, 10월말, 12월말에 각각 불량표제 기사가 유독 많은 것을 볼 수 있습니다.

  • 2020년 2월은 감염병 초기로 불확실한 정보가 많았던 시기로 기억합니다.
  • 2020년 10월 하반기는 독감백신 관련 보도가 많이 나오던 시기입니다. 당시 코로나19 백신의 효능, 부작용에 대한 불안과 맞물려 독감 백신에 대한 불안이 존재했고 그것이 언론 보도로 증폭되던 시기로 기억합니다. 미국 대선 직전이기도 합니다.
  • 2020년 12월 말은 백신 관련 보도 자체가 많아진 한편 불량표제 기사 또한 많아졌습니다.

언론사별로 비교해보면 다음과 같습니다.

언론사별 전체 기사 대비 불량표제 기사 (기간 내 비중)

그림 4: 언론사별 전체 기사 대비 불량표제 기사 (기간 내 비중)

언론유형 (일간지, 경제지, IT지) 별로 비교해 보았을 때는 다음과 같습니다. IT지의 경우 표본 수가 적은 편이어서 비중으로 표현한 막대그래프가 크게 들쭉날쭉하는 것을 볼 수 있습니다. 눈에 띄는 점은 2020년 10월 말 일간지에 비해 경제지의 불량표제 비중이 훨씬 높다는 점입니다. 평균적으로 경제지들이 독감백신/미국대선 시국에 기사 제목에 들어가는 표현에 주의를 덜 기울였다고 볼 수 있겠습니다.

언론유형별 전체 기사 대비 불량표제 기사 (기간 내 비중)

그림 5: 언론유형별 전체 기사 대비 불량표제 기사 (기간 내 비중)

향후 방향에 대한 제언

이 글은 시간상 여기에서 마무리합니다. 이 분석의 다음 단계로는 본문을 살펴볼 필요가 있다고 생각합니다. ‘주의해야 할 표현’을 제목에 사용한 기사는 본문에서 사용하는 표현이나 키워드 또한 다를까요? 이를 살펴보기 위해 기사 본문에 품사 태깅을 적용해 명사, 동사, 형용사 등 중요 키워드들의 분포를 파악하고 일반 기사와 유의미한 차이가 있는지 비교해볼 수 있겠습니다.

또한 기사에서 전문가를 얼마나 인용하는지 또한 정량적으로 탐색해볼 여지가 있는 문제라고 생각합니다. 빅카인즈 검색 서비스에서 제공하는 인용문 자료 등을 활용할 수 있을 것 같습니다.

참고문헌