티스토리 뷰

728x90

해당 게시글은 위 출처에서 번역하여 내용을 정리하였음을 밝힙니다.

 

Data Science vs. Machine Learning

 

 

Data scienceunstructured/raw data(비정형/원시 데이터)에서 정보를 추출하는 프로세스입니다.

 

이 작업을 수행하기 위해 여러 algorithms, machine learning technique, data analysis를 통합합니다.

 

그래서 개념으로 따지면 Data Science > Artificial Intelligence > Machine Learning 의 순으로 큰 개념이라 볼 수 있습니다.

 

Definition of Data Science & Machine Learning

 

Data science는 여러 분야를 통합한 개념으로 과학적인 방법, algorithm 및 process를 적용하여 지식을 추출하고, 구조화 및 비구조화 데이테어세 의미 있는 통찰을 도출하는 접근 방식입니다.

 

artficial intelligence, deep learning, machine learning을 포함한 광범위한 영역을 다룹니다.

 

목적은 data를 통해 의미 있는 통찰을 설명하는 것입니다.

 

Machine learning은 intelligent system을 개발하는 연구입니다.

 

기계 또는 장치가 학습(learning)하고 pattern을 인식(recognition)하여 자동으로 결정을 내릴 수 있도록 합니다.

 

algorithm과 mathematical models을 사용해 지능적으고 자율적으로 만듭니다.

 

둘의 차이점은 data science가 algorithms 뿐만 아니라 전체 데이터 처리 과정을 다룬다는 것입니다. 머신러닝의 주요 관심사는 알고리즘입니다.

 

Input Data

 

input data는 사람이 읽거나 해석할 수 있는 표나 이미지일 수 있습니다.

 

machine learning의 input data는 시스템의 요구 사항으로 처리된 데이터입니다. 원시 데이터도 특정 기술을 사용하여 전처리 됩니다. 예를 들여 feature scaling 등이 있습니다.

 

 Data Science & Machine Learning Components

 

Data science의 구성 요소에는

 

  • the collection of data
  • distributed computing
  • automatic intelligence
  • visualization of data
  • dashboards
  • BI
  • data engineering
  • deployment in production mood
  • automated decision

 

등이 포함됩니다.

 

반면에 머신러닝은 automatic machine을 개발하는 과정입니다. 데이터에서 시작하여, problem understanding, explore data, prepare data, model selection, train the system입니다.

 

 

Scope of Data Science & ML

 

Data science의 작업에는 understanding the system requirements, extraction of data 등이 포함됩니다. 데이터에서 insights를 이끌어내어 실제 문제에 적용합니다.

 

반면에 Machine learning은 mathematical model을 사용하여 시스템을 학습ㅎ기 때문에 새로운 데이터에 대한 결과를 정확하게 classify하거나 prediction해야하는 경우에 적용될 수 있습니다.

 

Hardware Specification for Data Science & ML Project

 

둘의 주요 차이점은 하드웨어 사양도 포함됩니다.

 

Data science은 방대한 양의 데이터를 처리하기 위해 수평으로 확장 가능한 시스템이 필요합니다. I/O 병목 현상을 방지하려면 고품질 RAM과 SSD가 필요합니다.

 

반면에 Machine learning에서는 집약적인 벡터 연산을 위해 GPU가 필요합니다.

 

System Complexity

 

복잡성은 data의 방대한 양과 비정형 데이터에 따라 달라집니다. machine learning의 경우 model algorithm과 mathematical operations에 따라 달라집니다.

 

 Performance Measure

 

성능 측정은 시스템이 작업을 얼마나 정확하게 수행할 수 있는지를 나타내는 지표입니다.

 

Data Science과 Machine Learning을 구별하는 중요한 요소 중 하나이며, data science 관점에서 요인 성과 측정은 표준적이지 않습니다.

 

문제별로 다른데, 일반적으로 데이터의 quality, querying ability, the effectiveness of data access, and user-friendly visualization을 나타내는 지표입니다.

 

반대로 machine learning의 경우, 성능 측정이 표준입니다.

 

모든 algorithm에는 주어진 training data와 error rate에 맞는 모델을 설명할 수 있는 측정 지표가 있습니다.

 

예를 들어, 선형 회귀 모델 오류를 결정하는데 root mean square error를 사용합니다.

 

Development Methodology

 

| Data scinece

 

engineering task

 

| Machine learning

 

research-based task, where with the help of data

 

So, a machine learning expert has to evaluate its model again and again to enchance its accuracy.

 

Visualization

 

| Data scinece

 

using graphs such as pie chart, bar chart, etc

 

| Machine learning

 

to express a mathematical model of training data

 

 

Programming Language for Data Science & ML

 

| Data scinece

 

SQL, HiveQL, Spark SQL

 

| Machine learning

 

Python, R, MATLAB

 

Preferred Skillset: Data Science & Machine Learning

 

 

각 분야별로 선호하는 기술이 다릅니다.

 

Data science의 경우

  • Data Profiling
  • ETL
  • Expertise in SQL
  • Ability to handle unstructured data

을 선호합니다.

 

Machine learning의 경우

 

  • Critical Thinking
  • Strong mathematical and statistical operations understanding
  • Good knowledge in the programming language, i.e., Python, R
  • Data processing with SQL model

을 선호합니다.

 

Data Scientist’s Skill vs. Machine Learning Expert’s Skill

 

 

각 직무별로 알아야 하는 스킬의 차이입니다.

 

A data scientist must need to know:

  • Data mining
  • Statistics
  • SQL databases
  • Unstructured data management techniques
  • Big data tools, i.e., Hadoop
  • Data visualization

a machine learning expert must need to know:

  • Computer Science fundamentals
  • Statistics
  • Programming languages, i.e., Python, R
  • Algorithms
  • Data modeling techniques
  • Software engineering

 

 

 Workflow: Data Science vs. Machine Learning

 

 

machine learning은 intelligent machine을 개발하는 연구이빈다. 프로그래밍하지 않고도 작동할 수 있는 기능을 기계에게 제공하는데요. 크게 5가지 단계로 나눌 수 있습니다.

 

  • Import Data
  • Data Cleansing
  • Model Building
  • Training
  • Testing
  • Improve the model

data science의 개념은 big data를 처리하는데 사용됩니다. 여러 소스에서 데이터를 수집하고 여러 기술을 적용하여 dataset에서 정보를 추출합니다. 큰 workflow는 아래와 같습니다.

 

  • Requirements
  • Data Acquisition
  • Data Processing
  • Data Exploration
  • Modeling
  • Deployment

 

machine learning은 data exploration을 위한 algorithm을 제공하여 data science를 돕습니다.  반대로 data science는 machine learning algorithms을 사용하여 결과 예측을 결합합니다.

 

 Application of Data Science & Machine Learning

 

data science는 금융에서 고객 데이터 관리, 위험 분석, 소비자 분석 등에도 사용됩니다. 의료 분야에서 data science는 의료 분석 이미지, 약물 발견, 환자 건강 모니터링, 질병 예방, 질병 추적 등에 사용됩니다.

 

한편 machine learning은 다양한 영역에서 적용되고 있다. machine learning의 가장 훌륭한 응용 프로그램 중 하나 는 이미지 인식입니다. 또 다른 용도는 말을 텍스트로 번역하는 음성 인식입니다. 이 외에도 video surveilance, self-driving car, text to emotion analyzer, author identification 등과 같은 더 많은 응용 프로그램이 있습니다.

 

Ending Thoughts

 

data science는 machine learning, software engineering, data engineering 등을 포함한 여러 분야의 통합입니다. 

 

이 두 필드 모두 정보 추출을 시도합니다. 그러나 machine learning은 supervised approach, unsupervised approach 같은 다양한 기술을 사용합니다.

 

반대로 data science는 이러한 유형의 프로세스를 사용하지 않습니다. 따라서 주요 차이점은 data science가 알고리즘뿐만 아니라 전체 데이터 처리에 집중한다는 것입니다.

 

한마디로, 모두 이 기술 중심 세계에서 실제 문제를 해결하는 데 사용되는 두 가지 까다로운 분야임을 알 수 있습니다.

 

 

728x90
댓글