(구글포함) 포털 유일하게 공개도 했었죠.. 알고리즘과 시스템 규모...자잘한 팀 규모까지;;;
참고로 실시간 급상금 검색어(이하 실급검)은.. 매 15초마다 갱신되는 순위표입니다.
공개되어있는 알고리즘을 간단히 설명하자면..
매 15초단위로 모든 수많은 검색서버에서 검색 쿼리수를 수집합니다.
근데 이 수집한 검색 쿼리수는 의미가 없는 수치죠..
(그 누구도 평범한 날씨인데 아침마다 날씨가 1위하고 그러는 서비스를 필요로 하지 않을겁니다..)
이를 쓸모있는 데이터로 만들기 위해 기존의 검색 로그를 활용합니다.
예를들어 지금(2014년 2월 21일 오후 8시 41분 00초)에 "클리앙"이라는 키워드를 가지고 의미있는 수치로 만들기위해
"기대 점수"(정확한 명칭은 기억이 안나지만;;;)를 뽑습니다.
기대점수란건 말그대로 "평범한 오후 8시 41분 00초에 이 키워드가 얼마나 검색되었을까~?" 정도의 값이죠..
그리고 현재 검색되고있는 양과 차이를 순서대로 쭉 뽑은게 "실급검" 순위인거죠..
특정 키워드의 기대점수는.. 고정값이 아니라 시간별로 날짜별로 다르기 계산되기때문에.. 같은 키워드라도 매 15초마다 바뀝니다.
이런식으로.. 갑자기 폭설이 내린다거나 할때만 날씨라는 키워드가 실급검에 표시되는 쓸모있는 서비스가 탄생합니다.
물론 기대점수 계산에는 복잡한 수치와 공식과 고민이 들어간다는군요..
예를들어 매주 토요일 무한도전이 검색어에 오르는게 과연 의미 있을까.. 등등의 현재는 의미있다고 판단한듯 합니다.. 알고리즘이 매주 특정요일에 많은 양을 보이는 키워드도 충분히 실급검에 오를수 있도록 되어있으니..
정리 : 실급검은 방금 직전의 검색양과 비교하는게 아니라.. 기존의 로그를 가지고 기대점수를 계산하여 차이를 가지고 계산합니다.
순위 기준 : "현재 검색량 - 기대 검색량"을 내림차순
"연아야 고마워"는 기존에 검색된 기대점수가 없을겁니다(0점;;이겠죠)... 지금 검색량이 그대로 순위기준계산에 쓰인다는거죠
( http://trend.naver.com/trend.naver?where=trend&mobile=0&startDate=200701&endDate=201402&dtype=&query1=%EC%97%B0%EC%95%84%EC%95%BC%20%EA%B3%A0%EB%A7%88%EC%9B%8C&query2=&query3=&query4=&query5 )
그래서 우측에 NEW마크가 떠있군요...
아마 오늘이 지나고 기대점수가 생길때부터 NEW마크가 아닌 숫자로 표기되겠죠..
물론.. 정상적인 서비스를 하기위해서.. 불법 키워드와 음란 키워드를 필터링하는 과정도 포함되어있다고 합니다.
한달에 필터링 되는 음란 키워드만해도 상당하다고 하니..
클량에 신고 기능이 없으면 정상적인 서비스가 되지 않겠죠..
결국 의미없는 순위가 되버리는....
고마워요 ㅋ
해당 정치적 사안에 대한 검색어는 이전에 검색된적이 없는데 말이죠.
정치적 사안에 대한 검색어가 급격하게 하락하는 이유가 뭐냐는 내용에는 검색의 변화를 반영하기 때문이라고 이야기했던 것 같은 기억이 있습니다.
어떤 키워드를 말씀하시는건진 모르겠지만.. MB 들춰내는 키워드는 많이 인기를 끌었죠 실급검에서..
실제로 검색 횟수가 낮아졌겠지요..
실급검 자체가 정치적 이슈만을 나타내기 위한 서비스가 아닌지라..
아무리 정치적 이슈가 떠있어서 한번씩 검색해본다한들.. 그 사람들도.. TV프로그램이나 기타 연예이야기도 검색을 더 많이 할겁니다.
무슨팀이 몇명이다가 중요한게 아니라, 실제로 어떻게 산정되느냐가 중요하지 않겠습니까?
공개했다지만 공개한 자료가 없다면 공개한게 아닌것과 다름이 없지 않나 싶은 생각이 듭니다.
여러가지 키워드들이 인기가 있었습니다만, TV를 타도 길지 않은 시간 뒤에 사라지는 경우가 꽤 되지 않았던가요.
대신 이미지 캡쳐 추가했습니다.
답을 정해놓고 이해하시려 하시면 답이 안갈꺼에요..
그 좀비PC를 이용해서 검색을 시켜버리면... 순간적인 순위 어뷰징이 가능하리라고는 보이죠~
운좋으면 그 순간적인 어뷰징이 인기를 타는거고..
그것이 좀비PC를 이용한 공격인지에 대해서 어떤식으로 인지할 수 있을까요. 저는 그게 궁금하네요.
그걸 보고 일반 사용자가 검색하기 시작하면서 유지될꺼란 생각은 안해보셨나요..
이것까지 설명이 필요할지;;(당연히 저런 시도를 할때 정말 쌩뚱 맞아서 검색도 안해볼것으로는 시도를 안하겠죠.. 그분들도 여러 시도끝에... 이런식으로 해야 잘먹히겠구나~ 할테니.. 실제로 있다면요..)
그럴 가능성은 충분히 보입니다만;;;
물론 어뷰징때문에 골치 아플것은 네이버쪽일터이고..(실제로 어뷰징 막느라고 고생 많다고..)
어느정도 최초에 가지고계셨던 궁금증을 풀리셨을꺼라고 생각하는데..
자꾸 원래 가지고 있었던 생각의 결론을 내기위해.. 일부로 알고있던것까지 무시해서 결론에 도달할려고 하지는 마셔요~^^
왠지 개발자이실꺼 같은데.. 내가 개발자라면 어떻게 구현했을까.. 라는 생각으로 접근해보시면.. 더 속시원할듯 해요..
아! 이런고민도 필요했었고.. 네이버는 이런식으로 풀었구나~ 이런식도 괜찮을까~?? 이런것들요..
그러니까 그게 어뷰징인지에 대한 판단을 어떻게 할 것이냐 그런 뜻입니다.
한 번 순위권에 들면, 노출된 것 자체가 검색을 재생산하기 때문에 순위가 떨어지기 힘들지 않느냐는 겁니다. 되려 정적인 순위가 되어야 할 것 같은데 같은 분 임에도 빠져버린 예가 있으니 이해가 안된다는거죠.
http://dkbnews.donga.com/List_Test/3/01/20120823/48832946/1
이 링크의 경우도 설명이 안됩니다. 조금 다른이야기이기는 합니다만.
그 "가속도"라는게 결국 증가량이라는 변화량값인데,
이전 시간의 검색량보다 현재의 검색량이 증가해야 +값을 갖게될텐데, 그 증가속도가 이전 시간의 검색량이 많을 경우 현재의 검색량이 훨씬 많아야 할테니까요.
100000만번 검색되던게 102000번 검색되는 것과 1000번 검색되던게 2000번 검색되는 것 중에서 어떤게 가속도가 더 빠른건가요?
기존의 검색량의 구간정도를 말씀하고 계신거죠..
기대점수를 뽑기위한 구간..
기대점수를 뽑는데.. 5년점 검색량을 수치화해서 뽑는건 의미 없잖아요~^^
위의 내용을 보면 "가속도"와는 상관이 없습니다.
위의 비교대상은 어제혹은 일주일간의 평균치와 스코어 산출시점 이전 10분간의 쿼리횟수의 차이가 클수록 유리하다는 이야기네요. 저기서의 표준편차는 무엇에 대한 표준편차인지 알수가 없어서 일단은 빼겠습니다.
이 말은 그냥 현재 관측량이 절대적으로 많으면 유리하다는 이야기와 다를바가 없지 않나요?
위의 자료에서 이야기하기로는 15초에 한번씩 스코어를 내고, 그 스코어의 기준이되는 관측횟수는 스코어 산정시점부터 이전 10분간. 그리고, 10분간 관측된 횟수에서 이전에 평균적으로 관측되던 횟수가 많으면 불리, 적으면 유리. 이런 이야기라고 보입니다.
그 이야기는, 이전에 관측된 적이 없고, 지속적으로 관측량이 많은 키워드의 경우 계속 노출되어야 한다는 이야기입니다. 그렇지 않나요? 바꿔말하면 관심사가 지속적으로 유지되는 경우 최대 24시간까지는 유지되어야 한다는거죠. 순식간에 사라질 정도라면 top에 나올수도 없다는 이야깁니다.
가속도를 이용해서 말씀을 해주셨으면 변화량으로 인식하리라는 생각을 해주셨어야 하는게 아닌가 싶습니다. 네이버의 자료는 15초에 한번씩 수치로 만든다고 이야기했습니다. 그리고 그 관측량은 이전 10분간의 관측량이구요.
기대횟수에 영향을 미치는 요소는 보정값은 알 수 없으니 과거 1주일 평균 관측량과 어제 관측량 중의 큰 값이겠지요.
위의 식에서 주요요소는(나머지는 알 수가 없으므로) 관측값-기대값인 건데 관측값이 순식간에 사라진다는 것은 불가능한 일이죠. 관측값이 충분히 크게 기대값을 앞지르고 있다면 순식간에 사라질 일은 없다는 이야기와 다름이 없으니까요.
제 생각이 맞다면 위의 식은 15초에 한번씩 재산정 된다고 해도 급격한 변화가 일어날 수 있는 식은 아니라고 생각합니다.
이 말은 이슈가 유지되는 동안이라면 급격하게 하락하는 일은 발생할 수 없다는 겁니다. 15초 단위로 갱신되는 중에, 15초 전에는 1위였던게 15초 후에는 없어질 수 있냐는 겁니다. 실검에 한 번 뜨면 내려가는게 쉽지 않은데, 순식간에 사라진 키워드들이 있었다는게 문제죠.
pleastop님// 그래서 '이전에 관측량이 없는' 조건을 붙였습니다. NEW로 나온 검색어라고 하면 다를바가 없죠.
게다가 15초에 한번씩 다시 점수를 산정한다고 하면, 급상승 검색어의 구간과 구간사이에는 9분45초의 정보가 공유되고 있는겁니다. 급격하게 감소한다고 하더라도 순위가 차근차근 떨어지면서 사라지는 것이지 한번에 사라진다고 볼 수는 없다는거죠.
구간이라는 것이 이전과 단절된 15초 단위의 구간이 아니라, 이전 구간과 9분 45초를 공유하는 15초의 구간입니다. 1부터 10의 구간이 있다고 하면, 1구간이라는것이 2구간 3구간과 단절되어있는 게 아니라 1구간과 2구간은 97.5%의 시간을 공유하고 있는 구간입니다.
들어주신 달리기 예는 이해할 수가 없어서 어떤 의견을 들 수가 없습니다. 죄송합니다.
급상승 검색어 개발자가 와서 이야기해준다면 더 이해할 수 있겠죠.
저는 원래 네이버가 알고리즘을 공개했다고 알고있었기에 조작할 가능성이 없지 않겠느냐 라고 생각했었으나, 알고리즘을 대강이라도 보고난 지금 도리어 더 의구심이 커지고 있습니다.