요즘 데이터 사이언스 쪽 공부를 많이 하는 초보입니다.
vector랑 scalar 등, 용어가 머릿속에 정립이 잘 안되어있습니다.
support vector machine(SVM)등 어디가든 vector로 많이 표기되는 이유는 무엇일까요?
제 개인적인 추측으로는 데이터는 행렬(matrix)로 표기되고 그 행렬은 vector값을 갖는다 입니다.
전문가님들의 조언 구합니다.
전 그냥 이과고 Numpy/Scipy 가끔 쓰는 정도인데, 이 쪽에서는 벡터는 그냥 1차원 행렬로 이해하고 있습니다. SVM의 벡터도 그런 의미로 알고 있는데요, 거기는 다른 추가적인 의미가 있나요? ^^
이해하고 계신 것이 맞습니다. 데이터 포인트가 n개, 관심있는 feature (변수)의 개수가 p개라고 하면 입력 데이터는 n X p 행렬로 표현되죠. 그리고 각각의 컬럼 n X 1은 컬럼 벡터, 로우 1 X n는 로우벡터 라고 칭합니다. 데이터 표현을 효율적으로 하기 위해 행렬과 벡터의 개념을 쓰는 것 같습니다.
vector가 set of values를 의미하니 그런거 아닐까요?
이게 수학/과학자랑 컴싸가 다른 용어를 쓰다가 데이터사이언스에서 경계가 모호해지면서 혼용되거나 그런 단어가 많아요...벡터도 그런것 같고 뉴럴넷 들어가면 수학에서 다르게 부르던걸 weight이라고 불러서 처음에 혼란을 일으키구요. (stat에서 weight은 다른의미가 있어서 더더욱).
댓글 [4]