Naver News Comment Analysis (1)

올초(3월)부터 같은 팀의 재명님과 네이버 뉴스 댓글 데이터로 사이드 프로젝트를 시작했다. 직접 크롤링하신 데이터였는데, 그 양이 방대해서 "이 정도 데이터가 있으면, 뭔갈 해볼 수 있겠지!" 라는 가벼운 마음으로 사이드 프로젝트 제안을 덥석 받아물었다. 그리고 여느 사이드 프로젝트가 그렇듯 그 과정은 결코 생각만큼 가볍지는 않았더랬다...

마침 작년 사내 Hackday에서 Abuser Detection 분석으로 좋은 성과를 얻었던터라 어뷰저 분석을 해보고 싶었고, 그 결과로 나름 재밌는 것들이 발견되었다. 하지만 좋은 발표 자리(이를테면 파이콘이라든지,,,)에 등록할 시기를 놓쳐서 논문을 arXiv에 올려두듯이 블로그에 댓글 분석한 내용을 공유하고자 한다.

Read More
나, 다시 쓰는 자기소개서

나, 다시 쓰는 자기소개서

매달 여는 연울림 모임이지만 특히나 지난 달에 했던 가치 워크샵은 내게 많은 고민을 남겨준 시간이었다. 200여 개의 가치들 중, 내가 중요하게 여기는 가치를 선택하는 과정 속에서 종착점이 생각보다 명확하다는 인상을 받았는데, 그 지점을 향해 나는 제대로 가고 있는 것인지에 대한 의문이 생겼기 때문이었다.

Read More
유쾌한 슬럼프

유쾌한 슬럼프

어렸을 때의 나는 무언가 새롭게 ‘시작’하는 것을 좋아했다. 무언가를 빨리 배우는 편이었고, 새롭게 어떤 환경이나 개념에 적응하는데에 드는 시간이 적게 들었기 때문에 ‘시작’을 즐길 수 있었기 때문이었던 것 같다. ‘시작’이 주는 그 몰입감과 성취감은 권태로움에서 나를 꺼내주는 좋은 처방전이었다.

하지만 동시에, 내가 ‘시작’했던 많은 자잘한 일들은 소위말해 ‘꿀만 빨고’ 그만 둘 수 없었다. 처음이 주는 신선함에 어느 정도 익숙해지고나면 이 분야의 ‘탁월함’이 보이기 시작하고, 나는 한참 밑에 자리하고 있다는 사실을 인지하게 된다. 그리고, 그때쯤 항상 그만두고 싶어졌다.

Read More

내가 보내는 시간에 부여하는 나만의 의미

개인적으로, PUBLY 박소령 대표님의 인스타계정을 좋아한다. 특히 본인이 읽었던 책에 대해 소개하는 피드를 애정한다. 공감하는 문장이 비슷할 때가 많고, 그 글을 읽고 난 뒤의 생각을 엿보는 재미가 있다.

최근, 회사에 연차를 이틀정도 내고 무엇을 할지 고민하던 중에 그 피드에 있었던 “일하는 마음”이라는 책이 떠올랐다. ‘옳다구나!’ 하고 집어든 책을 이제서야 거의 다 읽었는데, 그 중에 마음에 턱 걸렸던 부분을 소개하려고 한다.

Read More
연울림 이야기

연울림 이야기

연울림의 연은, 이야기할 연이다. 이야기의 힘을 믿기에 나올 수 있었던 기획이다. 우리, 날리다: 나를 알리다 팀은 기본적으로 모든 사람들은 본연의 색을 가지고 있다고 믿고 있다.

지금 이 순간에도 사람들은 각자의 방식으로 현상을 인식하고, 이해하고, 느끼고 있다. 그리고 나만이 경험하는 특별한 시간을 보낸다. 그 속에서 우리는 각자의 가치관과 각자의 고민을 가지게 된다. 평소에 이런 개인적인 생각들은 수면 위로 잘 드러나지 않는다. 가치관을 가감 없이 이야기하기엔 사회에서 수용 가능한 범위가 제한적이고, 고민을 숨김없이 이야기하기엔 나의 고민을 진심으로 귀 기울여줄 사람이 부족하다.

그래서 연울림이 기획되었다. 연울림의 연(讌)은 이야기할 연이고, 울림은 다양한 사람들의 이야기가 공명하는 순간을 담은 단어이다.

Read More
답은 언제나 나에게 있다

답은 언제나 나에게 있다

삶을 살아나간다는 것은 모두에게 주어진 같은 24시간을, 나의 선택들로 채워나가는 것이다.

하지만 고등학교 때까지 나에게 주어진 대부분의 시간은 다른 누군가에 의해 정해졌다. 부모님에 의해, 학교에 의해, 학원에 의해. 특히 고등학교 때는 7시까지 11시까지 정해진 수업시간, 야자시간으로 채워져 있어 내가 자유롭게 쓸 수 있는 시간은 더욱 없다. “대학 입학”이라는 공동의 목적을 향해 “성적을 올리는 것”을 공동의 목표로, 우리 모두는 정해진 시간 속에 살아간다.

하지만 대학 입학 이후, 환경은 갑자기, 극적으로 달라진다. 갑자기 공동의 목표가 사라지고, 갑자기 선택의 자유가 생기고, 갑자기 결정에 대한 책임이 주어진다. 갑자기 방향을 잃어버린 학생들에게 갑자기 “네가 좋아하는 것을 하고 살라”고 한다.

Read More
멘토에게 좋은 질문을 하는 방법

멘토에게 좋은 질문을 하는 방법

잇다 멘토로 활동했던 3개월 남짓한 기간에 생각보다 다양한 질문을 받았다. 그 중에는 답변하고 싶게 만드는 질문이 있었고, 글이 무거운 나머지 내가 적게될 답변 하나하나가 조심스러워 결국 기간 내에 작성하지 못하게 된 질문도 있었고, 답변하기 싫은 질문도 (당연히) 있었다. 질문이 도착했음을 알리는 진동이 두려워진 적도 있었다. 좋은 질문이면 큰 어려움없이 글을 적을 수 있지만 그렇지 않으면 심적으로 부담이 많이 되기 때문이다.

그러다 문득, 멘티의 입장에서 좋은 질문을 적는 것이 생각보다 어려울 수 있겠다는 생각이 들었다. 당장 스스로가 혼란스러운데, 어디서부터 어떻게 그 상황을 전달해야할지 막연하지 않을까? 그래서 이 글을 쓰게 되었다. 좋은 질문을 고민하는 과정에서 멘티들이 스스로 답을 찾게되길 바라는 기대도 함께하면서 말이다.

Read More

Machine Learning Yearning 요약: Ch.13~19

목적에 맞는 Dev와 Test set을 구축했다면, 이제 모델이 얼마나 잘하고 있는지, 못한다면 그 이유는 무엇인지에 대한 분석을 할 수 있다. 그래서 이번에 다룰 주제는 Basic Error Analysis이다.

Ch.13: Build your first system quickly, then iterate
Ch.14: Error analysis: Look at dev set examples to evaluate ideas
Ch.15: Evaluating multiple ideas in parallel during error analysis
Ch.16: Cleaning up mislabeled dev and test set examples
Ch.17: If you have a large dev set, split it into two subsets, only one of which you look at
Ch.18: How big should the Eyeball and Blackbox dev sets be?
Ch.19: Takeaways: Basic error analysis

Read More

Machine Learning Yearning 요약: Ch.5~12

이번에 요약할 Chapter 5~12 의 소제목은 Setting up development and test sets 이고, 아래와 같은 제목으로 구성되어 있다.

Ch.5: Your development and test sets
Ch.6: Your dev and test sets should come from the same distribution
Ch.7: How large do the dev/test sets need to be?
Ch.8: Establish a sinlge-number evaluation metric for your team to optimize
Ch.9: Optimizing and satisficing metrics
Ch.10: Having a dev set and metric speeds up iterations
Ch.11: When to change dev/test sets and metrics
Ch.12: Takeaways: Setting up development and test sets

Read More

Machine Learning Yearning 요약: Ch.1~4

Deep learning으로 예전에는 풀지 못했던 문제들을 풀게 되면서 다양한 기업에서 자신들의 서비스에 Deep learning을 활용하려는 시도가 많아졌다. 그러나 생각보다 Deep learning을 서비스에 적용하는 과정은 간단하지 않다. 연구 목적으로 사용되는 것보다 데이터가 훨씬 크고, 이 때문에 한번 모델을 학습시키는데 소요되는 시간이 더 길다. 더욱이 서비스로 배포되기 위해서는 매우 정확해야 하므로 (서비스의 특징에 따른 차이는 있겠지만 대체적으로) 모델의 검증과 재학습의 iteration이 더 많이 이루어진다. 그러므로 연구실에서보다 회사에서 더 전략적인 판단의 과정이 필요하다.

우리 팀도 NMT를 서비스에 반영하면서 다양한 고민에 부딪혀왔다. 그래서 Andrew Ng이 쓴 <>을 같이 읽고 있는데, 책 구석구석 고민해왔던 문제들에 대한 Andrew Ng 만의 해결책이 적혀있어 속이 뻥 뚫리는 기분을 맛보고 있다. (아무래도 Andrew Ng 은 Geoffrey Hinton, Yann Lecun, Joshua Bengio와 다르게 산업적인 측면에서의 Deep Learning에 더 관심이 많은 분인 듯하다.) 책 자체가 쉽게 쓰여져 있고, 각 챕터가 1~2장 정도밖에 되지 않아 부담은 적지만 큰 주제 별로 요약하면 더 많은 사람들이 쉽게 내용을 이해하고, 각자의 분야에 접목시킬 수 있을 것 같아서 이 글을 쓰게 되었다.

Read More