2019. 6. 13. 10:39ㆍ책, 1년에 100권
작가는 세스 스티븐스 다비도비츠(책에는 다비도위츠라고 쓰여있음)라는 하버드 출신 경제학 박사이다.
빅데이터의 힘을 알 수 있게 해주는 재미있는 책이다. 심지어 후반에 책의 결론을 내는 방식까지 기발하다 (처,천재?).
생각을 많이 하게 만든다. 내가 하려는 일에는 어떻게 적용할 수 있을까?
책갈피 정리
구글 검색이 그토록 귀중한 이유는 데이터가 많아서가 아니다. 사람들이 솔직한 생각을 내놓기 때문이다.
사람들의 정보 검색 그 자체가 정보다. 그들이 언제 어디에서 사실, 인용, 농담, 장소, 사람, 물건, 도움을 검색하는지는 그들이 정말로 어떤 생각을 하고, 어떤 욕망을 가지며, 무엇을 두려워하고, 무엇을 하는지에 대해 막연한 추측보다 훨씬 많은 것을 이야기 해준다.
작고 네모난 빈칸에 단어나 문구를 입력하는 일상적인 행동은 작은 진실의 자취를 남기며 이 자취 수백만 개가 모이면 결국 심오한 현실이 드러난다.
빅 데이터의 힘
- 새로운 유형의 데이터 제공
- 솔직한 데이터 제공
- 작은 집단도 클로즈업해서 볼수 있는 것
- 인과적 실험의 실행 가능성 (빠른 통제 실험이 가능)
어떤 분야에서 혁신을 일으키기 위해서 새로운 데이터를 이용하려 할 때는 기존의 방법이 형편없는 분야에 진입하는 것이 가장 좋다.
어떤 모델이 예측에 효과적인 이유에 관해서는 지나치게 많이 생각할 필요가 없다. (말의 좌심실의 크기가 경주마로써의 성패를 예측하는데 왜 그렇게 주요한지 완벽하게 설명하내지 못했다. 비장의 가치에 대해서도 정확하게 해명하지 못했다. 예측을 할 때는 어떤 것이 효과가 있는지만 알면 되고 그 이유까지는 알 필요 없다.)
현재 사용할 수 있는 새로운 유형의 모든 데이터를 활용하고 무엇이 데이터로 간주되는지 광범위한 시각으로 보는 것은 학자들은 물론 기업가들에게도 큰 가치를 지닌다. 현대 데이터 과학자들은 데이터를 보는 전통적인 관점에 얽매여서는안된다. 슈퍼마켓의 대기 줄을 찍은 사진도 귀중한 데이터가 된다. 꽉 찬 슈퍼마켓 쓰레기통도 데이터다. 사과가 잘 익었는지도 데이터다. 우주에서 찍은 사진도 데이터다. 입술의 곡선도 데이터다. 모든 것이 데이터다~! 이 모든 새로운 데이터로 사람들의 거짓말을 꿰뚫어 볼 수 있다.
인터뷰를 진행하는 낯선 사람에게 좋은 인상을 주고 싶어하는 욕구때문에 설문 조사시 거짓말을 한다. 진실한 답을 이끌어 내려면 대면 설문조사보다 전화 설문조사가 낫고, 전화 설문조사보다 인터넷 설문 조사가 낫다.
페이스북 초기 투자자인 피터 틸은 위대한 기업은 비밀을 바탕으로 만들어진다고 말한다. 구글은 링크 속의 정보가 엄청나게 강력하다는 비밀을 발견했다. 틸은 "사람들에 관한 비밀"을 "사람들이 알지 못하는 자신에 관한 것 또는 남들에게 알리고 싶지 않아 숨기는 것"으로 정의한다. 위대한 사업은 사람들의 비밀을 바탕으로 한다.
도플갱어 찾기는 데이터 클로즈업의 또 다른 사례다. 대상과 가장 비슷한 사람이라는 작은 규모의 부분 집합을 확대하는 것이다. 확대할 때는 다 그렇듯 데이터가 많을 수록 좋다. 도플갱어 검색은 운동 뿐 아니라 여러 분야에서 장래가 밝다. 나와 관심사가 대부분 겹치는 사람을 찾을 수 있을까? 나와 가장 닮은 사람을 찾는다면 가까이 어울릴 수 있을 것이다.
디지털 세계에서의 실험은 오프라인 세계에서의 실험에 비해 엄청난 장점이 있다. 오프라인의 무작위 실험만큼이나 설득력 있는 데다 자원 집약적이기까지 하다. 오프라인 실험에서는 수십만, 수백만 달러의 비용이 들고 수행하는데 몇 개월, 몇 년이 걸린다. 디지털 세계에서의 무작위 실험은 비용과 시간이 적게든다. 참가자를 찾을 필요도, 그들에게 돈을 줄 필요도 없다. 사용자를 무작위로 배정하는 코드 한줄만 쓰면 그만이다. 사용자에게 설문지를 채우라고 할 필요도 없다. 사용자의 마우스 움직임과 클릭만 측정하면 된다. 반응을 정리하고 분석할 필요도 없다. 결과를 정리, 분석하는 자동 프로그램을 구축하면된다. 그 어떤 계약도 필요 없다. 사용자에게 그들이 실험에 참여하고 있다는 사실조차 이야기 할 필요가 없다. 빅 데이터는 진정한 인과관계를 찾아낼 수 있는 무작위 실험을 훨씬 쉽게 할 수 있게 해준다. 당신이 온라인에 있기만 하면 언제나 거의 어디에서든지 실험을 진행 할 수 있다. 빅데이터 시대에서는 세상 전체가 실험실이다. (A/B 테스트)
빅데이터가 좋은 효과를 발휘 하려면 특별한 양념이 필요하다. 우리가 스몰데이터라고 부르는 소규모 설문조사와 인간의 판단이 그것이다. 페이스북처럼 눈부신 성공을 거둔 빅데이터 조직도 때로는 이 책에서 한참 폄하된 정보원인 '소규모' 설문조사를 이용하며, 숫자가 놓치는 것을 찾기 위해 사회 심리학자, 인류학자, 사회학자를 고용한다.
빅데이터가 폭로하는 사실들을 바탕으로 하는 혁명이 일어나리라고 내다본다. 그렇다고 어떤 문제에든 단순히 데이터만 갖다 대면 된다는 의미는 아니다. 빅데이터는 인간이 세상을 이해하기 위해 수천년동안 개발해온 다른 모든 방법의 필요성을 없애지는 않는다. 그들은 서로를 보완한다.
*아래는 이책의 마지막 1장의 내용 중 발췌
13개월의 노력 끝에 나는 마침내 거의 완성된 원고를 보낼 수 있었다. 다만 결론 부분은 빠져 있었다. 나는 편집자에게 결론을 완성하는데 몇달이 더 걸릴 수 있다고 설명했다. 결론은 책에서 가장 중요한 부분이다.
훌륭한 결론은 더 많은 일을 한다는 것을 깨달았다. 훨씬 더 많은 일을 말이다. 훌륭한 결론은 모순적이어야 한다. 훌륭한 결론은 마음을 움직여야 한다. 훌륭한 결론은 심오하고 장난기가 있어야 한다. 훌륭한 결론은 깊이 있고, 유머있으며, 슬픔을 안고 있어야 한다. 훌륭한 결론은 한두 문장으로 앞선 모든 것과 앞으로 올 모든 것을 요약하는 주장을 밝혀야 한다. 그 과정은 독특하고 새로운 방식으로 이뤄져야 한다. 훌륭한 책은 깔끔하고, 재미있고, 도발적인 한방으로 마무리 돼야 한다.
그러던 중 친구의 이메일 내용에서 빅데이터를 이용하여 독자가 책을 끝까지 읽는지를 대략적으로 알 수 있는 방법을 알게되었다. 친구의 측정애 따르면 도나 타트의 소설 [황금방울새]는 독자의 90퍼센트 사람들이 끝까지 읽었다. 반면 노벨상을 수상한 경제학자 대니얼 카너먼의 대표작 [생각에 관한 생각]을 끝까지 읽은 사람은 독자의 7퍼센트에 불과하다. 정말 많이 언급되고 높은 평가를 받은 토마 피케티의 [21세기 자본]을 끝까지 읽은 사람은 3퍼센트에 불과하다. 즉 경제학자들의 저작을 끝까지 읽지 않는 경향이 있다.
이 책에서 주장하는 바 중 하나는 빅데이터가 인도하는 길을 따르고 그에 따라 행동해야 한다는 것이다. 나의 독자들 중 대부분은 첫 50페이지를 읽고 몇가지 요점을 받아들인 뒤에 일상으로 돌아가버릴 것이다. 따라서 나는 이 책을 적절한 방법으로 끝맺을 것이다. 데이터에 따라서. 나는 친구들과 맥주를 한잔하고 이 망할 결론을 그만 쓸 것이다. 빅데이터가 말하길 여기까지 읽고 있는 사람은 극소수니까.
'책, 1년에 100권' 카테고리의 다른 글
월급보다 내사업 (0) | 2019.08.21 |
---|---|
벤츠 타는 프로그래머 (0) | 2019.07.03 |
누구나 자료구조와 알고리즘 (0) | 2019.05.07 |
시장의 흐름이 보이는 경제 법칙 101 (0) | 2019.05.05 |
1만권 독서법 (0) | 2019.04.17 |