본문 바로가기
industry/국내기업산업분석

데이터 분석 vs 데이터 엔지니어(Python vs C)

by Peter Choi 2023. 7. 20.
반응형

데이터 사이언스라는 학문이 많은 주목을 받고 있다.

 

그러면서 한국에도 이제 꽤 많은 데이터 사이언스 대학원들이 자리를 잡고 있다. 그러면서 미국에서 들어온 직군명인 "데이터 사이언티스트" 라는 이름이 유행했는데 더불어 "데이터 엔지니어" 라는 말도 심심찮게 보인다.

 

인터넷을 보다보면 두 단어에 대한 차이를 설명하는 말들이 꽤 많은데 이번 글에서는 간단하게 Python과 C라는 언어를 비교하며 그 차이를 알아보도록 하자

 

0. c와 python?

전산학과나 전자공학과에 입학하면, c언어를 필수적으로 1학년 시기에 배운다. 요즘엔 고딩 때도 배운다고 하지만. 어쩼든 "hello world" 같은 기초적인 구현부터 시작해서 자료형 반복문 등을 배우다가, 포인터라는 개념에서 머리를 싸매다가 한 학기가 끝나는 그런 모습이 그려진다. 

 

그에 비해 python은 학과 상관없이 근래 대학들에서 교양처럼 가르치고 있다. 굳이 전산학과나 전자공학과가 아니더라도 인문사회계열조차도 python정도는 다 배운 것 같다는 느낌이 든다. 

 

이렇듯, c와 python은 권장되는 집단의 범위가 현격하게 다르다. 그 이유를 잠시 생각해보자

 

1. 어디에 집중할 것인가?

사실 데이터 사이언티스트는 python을 사용하고 데이터 엔지니어는 c를 사용한다 이런 이분법적 단순한 얘기를 하는 것이 아니다. 다른 언어 쓸 수도 있다. 내 말은 대유법같은 개념이다. 그렇다면 그 python과 c라는 언어의 특성을 인지할 필요가 있다.

 

먼저, c는 고급 언어 중 가장 하드웨어와 밀접한 언어이다. 컴퓨터구조와 그 작동 원리에 대해 잘 알아야 한다. 그리고 그 원리에 기반해서 내가 하나하나 설정해 줄 것들이 많다. 운영체제나 환경설정 등 인프라 구축과 유지보수를 하는 데이터 엔지니어 입장에서는 도메인을 분석하는 것이 필요가 없고, 어떻게 그 하부를 관리할 것인가가 더 중요하다.

 

반면, python은 그러한 설정이 거의 생략된 언어이다. 하드웨어적 부분을 조금 신경쓰는 대신 도메인적 부분과 수리통계학 지식이 요구되는 분석 직무에서 많이 사용이 된다. 내가 속한 영역의 도메인 지식으로 분석을 해야 하는데, 이건 뭐 기반부터 다 만들 필요도 없고 그럴 이유도 없다. 분업화의 관점에서 봤을 때 그렇다.

 

2. 도메인 집중 vs 하드웨어 집중

결국 어디에 집중하는 직군이냐에 따라서 다르다. 데이터 엔지니어응 하드웨어와 OS단에 가까운의 일들을 하는 사람이고, 데이터 사이언티스트는 도메인 단게에 가까운 일을 하는 사람이다. 어디에 집중할 건지에 따라 사용하는 목적과 철학이 다른 것은 당연한 결과이다. 

 

반응형

댓글