Skip to content

Latest commit

 

History

History
143 lines (106 loc) · 16.4 KB

20240418YongwonKim.md

File metadata and controls

143 lines (106 loc) · 16.4 KB

Motivation - 여론조사꽃은 특별하게 많이 틀렸는가? 그렇다면, 추츨틀이나 조사방법의 차이는 어떠한가?

(현재 소소하게 수정하고 있지만, 그래프들과 테이블에 사용된 데이터는 제일 아래 tab-delimited file링크로 제공하고 있습니다. 직접 확인해주시고, 만약 문제점이 발견되면 https://github.com/WWolf/2024KRelection_commentary/issues 에 이슈를 내주시길 바랍니다)

(여론M에 등재된 여론조사 중 한 개가 여심위 등재에서 빠졌고, 중복기재된 여론조사 (양자대결/다자대결)을 제외하고, 불명확한 방법이 가상번호로 밝혀진 여조들을 정리해서 여조꽃 외의 수치가 일부 변경됐습니다)

페이스북 포스트로 전 여심위원장님이셨던 김영원교수님께서 최근 동아일보 기사에서 여론조사꽃에 대해서 언급하셨던 부분에 대해 부연해주셨습니다. 여기에 여론조사꽃의 선거구 조사결과를 수합하셔서 편향을 계산하셨는데, 사실 일전에 여론조사꽃에 대한 비판글을 썼을 때 인지한 것이지만

  • 여론조사꽃은 ARS와 면접조사라는 방법론상으로 매우 크게 차이가 나는 조사방식을 모두 섞어서 같은 조사기관 이름으로 하고 있기 때문에 방법론상의 차이가 얼마나 영향을 미쳤을지,
  • 다른 여론조사회사들도 상당히 차이가 나는 결과들을 본 것으로 기억하는데 여론조사꽃의 결과 차이가 다른 여조회사들의 결과차이를 베이스라인으로 했을 때 얼마나 튀는지가 궁금했습니다.

예를 들어서 성남 분당구갑 조사만 하더라도, 한국리서치는 명목결과로만 민주당후보에 13%p나 높은 지지율을 공표했습니다:

image (여론조사 [여론M 사이트](https://poll-mbc.co.kr/poll2024/)에서 캡쳐)

이에 비하면 여론조사꽃의 5.4%p(+6.6%p)는 작은 숫자라고 느껴질 정도입니다.

사실 그래서 말씀하신 기준으로 3월 25일 이후 공표금지기간까지 모든 여론조사결과의 편향을 비슷하게, 방법론상으로 파악할 수 있을 것 같아서, 훌륭한 여론M의 집계된 여론조사 결과들을 바탕으로 급하게 검토해봤습니다.

제대로된 여론조사의 공표금지 기간 직전의 편향에 대해서는 각 잡고 제대로 분석해야하고, 누군가 해주실 것이라고 믿고 있고, 저도 그런 제대로 된 분석들을 읽고, 이리저리 확인하고 싶습니다. 이 문서는 김영원교수님의 페이스북 포스트가 계기가 되어서 아주 간단하게 살펴본 것일 뿐입니다.

2024년 3월 25일 이후 4월 3일까지 모든 지역 선거구 조사결과

여심위에 등록된 지역구 여론조사를 3월 25일부터 진행해서 4월 3일까지 진행한 모든 여론조사는 총 296개입니다. 이들을 전체적으로 방법론상으로 나누면 다음과 같습니다.

방법1 방법2 방법3 n
전화면접 가상번호 무선 154
ARS 가상번호 무선 75
ARS 가상번호/RDD 혼합 유무선 혼합 63
ARS 가상번호 유무선 혼합 2
ARS RDD 유무선 혼합 1
ARS+전화면접 혼합 가상번호 무선 1

여론조사회사별로 나누면 어떻게 될까요? (편의상 가장 흔했던 3가지 방식으로만 좁혀서 봤고, 원 페이북포스트대로, 호남 여론조사는 제외했으며, 중복기재된 여조들은 다자여조들을 기준으로 했습니다. 월 25일부터 4월 3일까지의 여론조사결과는 266개입니다)

조사기관2 total 유무선 혼합 ARS 가상번호/RDD 혼합 무선 ARS 가상번호 무선 전화면접 가상번호
한국리서치 29 0 0 29
여론조사꽃 28 12 0 16
케이에스오아이(한국사회여론연구소) 28 0 22 6
조원씨앤아이 21 0 21 0
한국갤럽조사연구소 20 0 0 20
케이스탯리서치 15 0 0 15
넥스트리서치 13 0 0 13
코리아리서치인터내셔널 12 0 0 12
한길리서치 12 6 6 0
여론조사공정 10 9 0 0
메타보이스 9 0 0 9
KOPRA 8 8 0 0
데일리리서치 8 2 6 0
리얼미터 8 8 0 0
엠브레인퍼블릭 8 0 0 8
입소스 8 0 0 8
미디어리서치 7 6 0 0
PNR-피플네트웍스 5 0 5 0
리서치뷰 3 0 3 0
알앤써치 3 3 0 0
에브리리서치 3 0 3 0
이너텍시스템즈 3 2 1 0
윈지코리아컨설팅 2 0 2 0
코리아정보리서치 2 2 0 0
메타서치 1 1 0 0

보다시피 28개의 여론조사꽃 조사는 12개는 유무선 혼합 ARS/RDD라는 혼종 여론조사를 했고, 무선전화면접조사는 16개 수행했습니다 (참고로 캡처된 김영원교수님의 페이스북 포스트에서는 세종갑이 빠져있습니다. 민주당 후보가 없기 때문입니다. 아래의 그래프에선 빠집니다).

image (김영원교수님 페이스북 포스트 캡처)

이제 선거결과를 살펴볼 때입니다. 이 때, 다른 회사들의 경우에 민주당후보나 국민의힘후보가 없는 지역구들을 제외해야해서, 결과적으로는 257개의 여론조사결과를 바탕으로 다음의 그래프를 만들 수 있었습니다:

image

이 그래프에서 눈에 띄는 것은 (잠정적입니다),

  • 여론조사꽃만의 편향은 거의 전적으로 ARS로, 유무선혼합, 가상번호/RDD를 뒤섞은 방법론으로부터 비롯된 것 (자세한 세부사항은 여심위 사이트 참조 - 아래 파일링크에서 모든 파일링크들이 적시되어 있습니다)
  • 품질지표가 일반적으로 훨씬 좋은 가상번호 면접조사로 한정했을 경우 여론조사꽃의 편향은 다른 여론조사업체와 크게 달라보이지 않는다는 것,
  • 다만 가상번호 면접조사조차 상당한 민주당후보로의 편향이 여론조사업체를 불문하고 보인다는 것 (표집오차범위에 살짝 걸쳐있습니다),
    • 특별히 가상번호+면접조사에서 눈에 띄는 편향은 새롭게 등장한 메타보이스란 업체가 중위값으로 보자면 여론조사꽃의 ARS혼합조사만큼 편향이 있어 보이는 것,
    • 그러한 평균적인 편향을 제하고 중위값으로 보자면 NBS조사 참여업체의 house effect들 또한 각각 보인다는 것 (엠브레인이 민주당후보편향, 나머지 약간 국힘후보편향),
  • 무엇보다 일부 면접조사+가상번호 조사업체의 경우 개별 여론조사값들의 편차 범위가 상당히 커서 ARS 기법 여론조사들에 비해서 큰 차이가 보이지 않는다는 것,
    • 통상 500명 여론조사 표집오차가 +/-4.4%p임을 감안할 때, 이를 넘어서는 오차들을 1주일의 공표금지기간동안의 변동 등 여러 다른 요소로 설명할 수 있을지 면밀히 검토가 필요할 것 같습니다.

등입니다.

여론조사꽃은 특별하게 많이 당락을 잘못 알려줬는가?

조사기관 조사방법 여론조사갯수 당락오류비율 당락동일 당락바뀜
엠브레인퍼블릭 무선 전화면접 가상번호 8 62.5 3 5
윈지코리아컨설팅 무선 ARS 가상번호 2 50.0 1 1
코리아정보리서치 유무선 혼합 ARS 가상번호/RDD 혼합 2 50.0 1 1
메타보이스 무선 전화면접 가상번호 9 44.4 5 4
여론조사꽃 유무선 혼합 ARS 가상번호/RDD 혼합 12 33.3 8 4
조원씨앤아이 무선 ARS 가상번호 21 28.6 15 6
케이에스오아이(한국사회여론연구소) 무선 ARS 가상번호 21 28.6 15 6
여론조사꽃 무선 전화면접 가상번호 15 26.7 11 4
입소스 무선 전화면접 가상번호 8 25.0 6 2
여론조사공정 유무선 혼합 ARS 가상번호/RDD 혼합 9 22.2 7 2
PNR-피플네트웍스 무선 ARS 가상번호 5 20.0 4 1
케이스탯리서치 무선 전화면접 가상번호 15 20.0 12 3
한길리서치 무선 ARS 가상번호 5 20.0 4 1
한국리서치 무선 전화면접 가상번호 29 17.2 24 5
넥스트리서치 무선 전화면접 가상번호 13 15.4 11 2
한국갤럽조사연구소 무선 전화면접 가상번호 20 15.0 17 3
코리아리서치인터내셔널 무선 전화면접 가상번호 10 10.0 9 1
KOPRA 유무선 혼합 ARS 가상번호/RDD 혼합 8 0.0 8 0
데일리리서치 무선 ARS 가상번호 6 0.0 6 0
데일리리서치 유무선 혼합 ARS 가상번호/RDD 혼합 2 0.0 2 0
리서치뷰 무선 ARS 가상번호 3 0.0 3 0
리얼미터 유무선 혼합 ARS 가상번호/RDD 혼합 8 0.0 8 0
메타서치 유무선 혼합 ARS 가상번호/RDD 혼합 1 0.0 1 0
미디어리서치 유무선 혼합 ARS 가상번호/RDD 혼합 6 0.0 6 0
알앤써치 유무선 혼합 ARS 가상번호/RDD 혼합 2 0.0 2 0
에브리리서치 무선 ARS 가상번호 2 0.0 2 0
이너텍시스템즈 무선 ARS 가상번호 1 0.0 1 0
이너텍시스템즈 유무선 혼합 ARS 가상번호/RDD 혼합 2 0.0 2 0
케이에스오아이(한국사회여론연구소) 무선 전화면접 가상번호 6 0.0 6 0
한길리서치 유무선 혼합 ARS 가상번호/RDD 혼합 6 0.0 6 0

앞서 그래프를 그린 지역구 여론조사들을, 당락 오류비율로 정렬해보았습니다. (참고로 김영원교수님께서 부산 해운대갑 선거결과를 반대로 올리셔서 7군데가 틀렸다고 적시하셨는데, 8군데가 틀렸습니다)

  • 유무선 혼합 ARS 방식의 여론조사꽃 결과는 4군데 당락이 바뀌었다고 나오고 (1/3이 당락이 뒤바뀜)
  • 무선 전화면접 가상번호의 경우엔 15개의 조사 중 4개의 조사가 당락이 바뀌었다고 나옵니다 (대략 4개 조사 중 하나가 틀림)
  • 그런데 더 작은 숫자이긴 하지만, 메타보이스가 44%에 달해서 틀렸고, 조원씨앤아이도 30%의 조사가 당락이 틀리는 수준이었습니다.

논의

이 비교는 매우 단순하게 비교한 것이고, 모든 회사들이 같은 지역구를 한 것이 아니고, 여러 국제기준응답률 등 품질지표들을 살펴봐야 제대로 된 여조 품질 분석이 가능할 것 같습니다.

또한 많은 지역여론조사에서 물어본 투표의지 등 세부 지표들이 선거결과를 좀더 잘 예측하는지, 각종 여론조사들이 민주당후보 편향결과를 보정할만한 단서들을 갖고 있었는지 살펴봐야할 것 같습니다. 김영원교수님께서도 "보다 정교한 분석을 위해 학술논문에서는 로그-오즈비 형식의 척도를 많이 사용합니다."라고 말씀하셨습니다. 이 점 (정교한 분석) 전문가분들의 분석을 기다립니다 (시의성때문에 급히 확인해봤습니다).

image

김영원교수님의 설명에 따라 log-odds ratio graph도 첨부합니다.

시간상 데이터에 대해 무결성검사를 수행하지 못했지만 시의성때문에 올려놓습니다. 확인 부탁드리고 주의부탁드립니다.