안녕하세요?
유저 트렌드 데이터를 기반으로 하여 테마와 종목을 자연적으로 매칭시켜주고 해당 종목에 관련 테마를 찾아주는 시스템을 만들었습니다.
아직 R&D를 하는 수준이지만 점점 서비스가 업그레이드가 되고 있습니다.
증권시스템은 특성상 사전을 새로 만들어줄 필요가 있는데 word2vec를 쓰기전부터 언어사전을 만들어야 효율적으로 데이터마이닝을 할 수 있었기에 노가다를 좀 많이 했습니다.
점점 정교해지고 있고 정확도도 높아지고 있습니다.
중요한건 제가 뉴스로 해당 작업을 해본결과 뉴스 자체가 워낙 기계적으로 만들어지는 뉴스도 많고 기자들이 글을 쓰는 특정 패턴이나 단어가 일관성이 있다보니 적당히 예상하는 정도의 단어가 캐치되는 반면에 유저데이터 기반에서는 유저들 각각의 다양한 개성이 뭉쳐 더 좋은 데이터들이 결과물로 나왔습니다.
주말에도 지속적으로 데이터는 갱신하고 있으며 평일에는 장 시작 후 10분 이후부터 데이터가 실시간으로 갱신됩니다.
마피아(Mafia)게임은 정보를 가진 소수와 정보를 가지지 못한 다수의 싸움을 모델로 한 파티용 게임이다.
이 뜻으로 사용을 했는건가 해서;;;;
정보력으로 싸워서 승리한다는 느낌이요ㅎㅎㅎ
주식게시판 크롤링 하믄 식인건가요?
하지만 유저 트렌드가 기반이 되기때문에 바닥으로 많이 언급되는 종목들이 나올거라고 봅니다^^
테마정리 더 빡세게 하심 좋을꺼 같아요.. 한계가 있다는거 잘 압니다. 거기서 부터 시작이에요.. 저도 코스닥 1400개 다 분류했는데 죽는줄 알았어요 ㅋㅋㅋ
미립자 팁 드리면, 몽당연필인가? 그분이 당일 상승률 TOP 30 올리는데, 테마 잘 분류해 놓았어요. 그글 차용해보심이..
제가 만든 사이트는 유저데이터를 기반으로 자동적으로 매칭되는거라 실제 매칭되는 사전데이터에 테마정리를 열심히 해두고 있습니다.
자동화시스템이라 어떤 테마가 뜰지도 모르구요 그래서 정확도가 엄청 높다고는 할수 없습니다.
향후에는 테마를 분류하는것 까지 머신러닝으로 학습시켜서 자동화시키는것이 목표입니다!
그리고 테마가 유저데이터가 기반이라 아무리 테마정리를 잘해도 실제 유저들의 데이터와 맞지않는 단어의 테마는 매칭되지 않습니다.
그게 가장 난제이긴 하네요...