여론조사 전문가 “응답 안 해도 일반화 시켜”...미래한국연구소 ‘림가중’ 지적
||2024.11.26
||2024.11.26
[더퍼블릭=김종연 기자] ‘성향분석’으로 분류된 DB(전화번호 데이터베이스) 자료가 공표용 여론조사에 사용됐다면 문제가 있을 거라고 전문가의 분석이 나왔다. 또, 림가중 적용이 정확도를 떨어트리거나 누군가에게 유리하게 작용할 수 있다고 봤다. 조사 시간대에 따라 세대별 응답률이 다르다고도 설명했다.
익명을 요구한 A씨는 오랜 기간 동안 여론조사 업체를 운영했었다. 그는 ‘더퍼블릭’과의 인터뷰에서 RDD(휴대전화 무작위 추출) 방식의 문제점을 지적했다. 또, 명태균 씨에 대해선 “사람의 심리를 잘 아는 사람”이라고 했다.
그는 특히, 가중치 적용과 관련해 ‘림가중’ 방식을 없애야 한다고도 했다. 그는 공표용 여론조사에서 정확도가 떨어지는 수법이 쏠림 현상을 만들어 낼 것이라는 데에도 의견을 같이했다.
「다음은 A씨와의 일문일답」
▲최근에 여론조사 조작 관련 이슈가 나오고 있다.
= 리서치(업계)에 이번 사건의 큰 얘기는 세 개다. 그 중에 하나가 선거의 데이타는 RDD(휴대전화 무작위 추출) 방식하고, 안심번호를 받게 돼 있다. RDD는 사실은 이제 없어져야 하는 거다. 옛날에는 KT 전화번호로 했다. KT가 더 이상 배포를 안 하니까 RDD로 번호를 만들어서 하면은 오히려 좀 공정하다고 해서 사용하게 됐다. RDD 방식은 예를 들어 042(지역번호 또는 국번) 900번에 0000~9999 까지 만들고 거기서 랜덤으로 번호를 추려서 추린 거를 그 장비에 얹히면 번호를을 얹히면 거기서 다시 랜덤으로 전화를 돌리는 형태다. 그러다가 RDD도 문제가 있다고 해서 안심번호가 나온 거다.
안심번호가 나왔는데 여기서 선거를 아는 사람이라면 누구나 할 수 있는 일인데, RDD 번호와 안심번호를 섞는 방법도 있다.
▲당원명부를 안심번호 형태로 있는 것을 일부 대선 캠프에서 받아서 사용했다고 하는데.
= 전당대회를 하는데 (안심번호로 받은) 당원명부를 받아서 전체를 한번 돌려본 후 성향 조사를 먼저 했다는 거다. 이거는 공포 안 하고 아무것도 안 하면 되니까, 성향 조사를 해서 누구를 찍고 누구를 (싫어)하는지 정확히 알게 된다. 그러면 이제 스나이프가 되는 거다. 이 번호는 누구를 찍겠다고 정확히 타켓이 있고, 성향이 어떤 사람이니까 이 사람 데이터만 빼내면 될 거다.
그 데이터를 빼낸 걸 갖고 안심번호하고 RDD하고 섞어 (조사를 해). 전체를 (숫자를) 맞춰.
▲거기서 이제 표본을 다시 추출하는 건가.
= 그렇다. 딱 맞추면 될 것이다. 그러니까 예를 들어서 이런 거다. 논란이 되고 있는 여론조사 결과를 보면, 20대 여성이 어떻게 18%씩, 180명이 응답을 하느냐. 있을 수가 없는 일이다. 20대 여성 (응답이) 너무 빨리 (응답으로) 차. 그건 뭘 뜻하겠느냐. 이미 타켓번호를 갖고 있는 거라고 보인다.
▲여론조사에서 20대의 남녀 응답률이 굉장히 낮지 않나.
= 그러니까 그 타켓번호를 정확히 갖고 있다가 안심번호하고 섞어서 돌리는 방식일 가능성이 크다. 전당대회 할 때 국민과 당원을 5대 5 (비율)로 섞어서 한다고 하면 그냥 (일반) 안심번호 받고, 당원들 안심번호 받아서 그냥 똑같이 얹혀서 쏘면(전화를 걸면) 된다. 근데 이미 정해져 있는 타켓이 있는 거 같다. 그런 형태로 가니까 만들 수 있는 거다. 내 입맛에 맞춰서. 그게 이제 큰 문제가 하나가 돼 있던 거 같다.
▲RDD는 문제가 있는 거 아닌가.
= RDD를 앞으로 못 쓰게 하자는 여론이 있다.
▲성향분석을 구체적으로 어떻게 써 먹을 수 있을 것으로 보나.
= 지금 이준석이 때부터 시작해서 오세훈, 그 옛날 그 보궐선거 때 그리고 나머지 국회의원들 선거, 홍준표 경선 선거에 다 써먹은 것으로 보인다. 사표방지 차원에서 ‘이번에 누구 찍을까?’ (고민하면서) ‘모르겠다’라고 (응답) 하면은 그들을 집중적으로 공략하는 거다. 예를 들어 홍준표와 윤석열 지지자들을 따로 관리할 수 있다.
▲대선 때에도 사용됐다고 보는가.
= (대선 때) 어떤 일이 있었냐면, 국민의힘에서는 10% 차이로 이긴다고 생각했다. 그런데 박빙 승부라는 걸 알고 있었던 거 같다. 실제 보니까 0.73 (차이가) 나왔다. 이쪽도 저쪽도 싫은 국민들이 ‘사표’ 중도 성향을 갖고 있는 사람들의 표를 움직이게 하는 조작의 힘이 있다.
▲명태균 씨는 자신은 ‘마케터’라고 했다. 그러면서 “시장조사를 한 것”이라고 했다.
= 맞는 말이다. 시장조사다. (시장조사라는 건) 100% 성향 분석이다. 큰 신문사들이 (자체조사는) 신고 안 하고 조사를 하는 부분이 있다. 앞으로는 조사하지 못하도록 법을 바꿔야 한다. (사전) 신고를 안 하니까 검토를 선관위가 할 수 없었다. 공표용만 신고한다.
▲응답 표본을 조정했다는 얘기도 있다.
= 여론조사는 가중치를 준다. 이 가중치는 셀가중과 림가중이 있다. 통상적으로 선관위에서 통계학적으로 다 이 두 가지를 인정해 준다. 그런데 셀 가중은 괜찮은데 림 가중 적용을 선거해서는 하면 안 되는 거다. (인구비례에 따른 가중치 기준을 예를 들어) 0.68인가부터 시작해서 1.73 인가까지 그 범주에 들어오면은 인정을 해준다. 샘플(표본이)이 10개를 뽑아야 되는데 6개 뽑은 것도 인정해 주고 17개 뽑은 것도 인정해 주고 이제 이런 식이다.
그런데 샘플이 하나도 안 뽑힐 때가 있다. 그러면 셀가중을 할 때는 (가중치 기준) 범주에 들어오면은 10명 중에 6명, 7명만 답변해도 사실은 10명 치를 답변했다고 볼 수 있다. 그게 이제 셀가중이다. 그런데 림가중은 예를 들어 세종이나 대전에 있는 20대 여성이 한 명도 답변을 안 했을 때가 있다. 가중치 기준이 안 맞을 때 림가중을 쓰는데, 전국 조사에서 인원 비율을 맞춰 보니까 가중치 비율이 (예를 들어)0.68 이상으로 들어왔다면, 그때 림 가중을 사용한다. 근데 대전이나 세종 이런 데는 답변한 사람이 아무도 없어 20대 여성이 그러면 어디서 답변해 준 거를 가져다가 쓰냐면, 전라도 경기도 서울에서 답변해 준 사람으로 세종대전도 그냥 묻어가는 것이다.
▲타지역 응답자와 무응답 한 지역의 성향이 비슷할 거라고 보는 건가.
= 그렇다. 전체(일반화)로 봐주는 게 림가중이다. 더 복잡한 설명이 있다. 미래한국연구소가 림가중을 많이 하더라. 여기서 RDD로 성향조사를 한 표본을 일부 써 먹을 수 있다. (자체조사는) 이거를 써먹었는지 안 써먹었는지는 모를 수 밖에 없다. 그런데 써먹었을 것이다라고 추측을 하는 거다. 그래서 20대 여성 응답률이 너무 좋거나 20대 남자 응답률이나 30대 여성 응답률이 좋을 수 없는데, 많이 나온다.
▲2021년 5월 16일 발표된 당대표 지지도나, 대선 경선 앞두고 발표된 여론조사를 보면, 20대 응답자가 많은 거 같더라.
= (나는) 뭔가 이미 (성향분석이 된) DB(데이터베이스)를 갖고 있었던 것이라고 생각한다.
▲그러면 이 부분들이 혹시 처벌의 대상이 될지 궁금하다.
= 이건 조작이다. 조작에서 창조까지 한 거다. 여론조사를 창조한 거다. 이거는 그냥 단순 조작이 아니다. 뭐 가중치를 조금 변경하는 수준의 조작이 아니다. 이거는 자기들이 만들어 낸 거다. 그러니까 창조 수준이다. 하려고 하면 할 수 있었던 일인데, 불법이니까 안 했던 일이다. 근데 이거는 ‘과감한데?’라는 생각이 들더라. ‘이렇게 했으면 나도 청와대 갔겠는데?’라고 이제 우리가 웃으면서 생각했던 것들이다.
▲명 씨는 자체여론조사를 조작한 걸 두고 “내가 집에서 옆구리가 터진 김밥을 먹든, 잘된 김밥을 먹던 무슨 상관이냐”라고 말했다.
= 그 말이 정답이다. 내가 이렇게 돌러보고 저렇게 돌려보고, 이거 빼고 돌려보고 이거 붙이고 돌려보고 했을 때 결과를 나 혼자 확인하는데 무슨 상관이겠는가.
못 움직이는 표가 항상 20 프로는 있다. 마지막까지 고민하는 사람들. 그 마지막 표를 움직이게 할 수 있는 거는 이제 사표 방지하려고 하는 그 여론을 움직이게 하는 거다. 그거를 명태균 씨가 너무나 잘 분석하고 있었던 것으로 보인다. 투표 전날까지 고민하는 사람들의 민심을 어떻게 움직일 건지를 알고 있었던 거 같다. 핵심은 명태균 씨가 사람의 심리를 너무 잘 알았던 것 같다. 그 20%의 사람 심리를.
▲RDD랑, 안심번호랑 섞어가면서 표본 가지고 장난치면 안되지 않나.
= 장난을 쳐도. 우리끼리 보고 공표 안 하고 문제점을 찾아내서 후보가 잘 갈려고 하는 거라면은 얼마든지 할 수 있는 거다. 문제점을 찾는다든지, 선거는 이겨야 되는 거니까. 어디가 약점인지 이런 걸 찾아내는 거는 가능하다.
▲자체조사를 수십 번 씩 해도 상관이 없나.
= 선관위에서 인정해 준 신문사들이 선관위 사이트 가면 있다. 거기 거는 신고 안 해도 된다.
명태균 씨가 여론조사 기관과 신문사를 갖고 있었던 게 큰 핵심이었다.
▲여론조사를 방해했다는 얘기도 나온다.
= 성향분석을 해놓고 실제 당원여론 조사가 진행될 때에 리서치 조사 장비로 방해를 할 수도 있긴 하다. 예를 들어 10명 중 A를 3명이 좋아하고, B를 7명이 좋아한다고 했을 때, A를 위해서 A를 빼고 B, C, D를 후보군으로 넣어 여론조사를 하는 방식도 가능할 것 같다. 성향분석이 끝났다면, B, C, D를 좋아하는 이들에게 지속적으로 여론조사를 해서 당원 여론조사 응답을 한 것으로 오인하게 하는 수법이다. 어느 시간 대에 여론조사를 수행했느냐도 중요하다.
▲시간대에 따라서 결과가 다르게 나오나.
= 이거는 변하지 않는 불변이다. (조사) 시간대를 오전에 할 거냐, 오후에 할 거냐, 점심 때 할 거냐, 저녁에 할 거냐. 밤 9시 전까지만 하면 되니까. 이거에 따라서 답변이 달라진다. 오전에 바쁜 와중에 직장인들이나 30대, 40대, 50대가 답변을 제대로 하겠느냐. 10명의 샘플을 뽑아야 되는데 5명 답변도 간신히 한다. 반면에 고령층은 답변이 많다. 5명이 10명 거를 다 커버하는 거다. 8명 나올 수도 있는데 저녁에 하면 그러니까 답변이 좀 다르게 나올 수도 있는 거다. 결과적으로는 가중치를 먹이면 먹일수록 정답과는 거리가 멀어지는 거다.
