Khi thế giới bước vào thời đại dữ liệu lớn (big data), nhu cầu lưu trữ cũng tăng lên. Đó là thách thức và mối quan tâm chính đối với các ngành doanh nghiệp cho tới năm 2010, với trọng tâm là xây dựng giải pháp để lưu trữ dữ liệu. Giờ đây khi Hadoop và các giải pháp khác đã giải quyết thành công vấn đề lưu trữ, thách thức là làm sao để xử lý được các dữ liệu này. Khoa học dữ liệu chính là chìa khóa để giải quyết vấn đề đó. Khoa học dữ liệu có thể biến những ý tưởng mà bạn thấy trong các bộ phim khoa học viễn tưởng của Hollywood thực sự có thể biến thành hiện thực. Khoa học dữ liệu là tương lai của Trí tuệ nhân tạo. Vậy, Khoa học dữ liệu là gì và làm thế nào nó có thể gia tăng giá trị cho doanh nghiệp của bạn?
Trong bài viết này, chúng tôi sẽ giới thiệu:
Khoa học dữ liệu (data science) là gì?
Tại sao cần sử dụng Khoa học Dữ liệu?
Nhà khoa học dữ liệu (data scientist) là ai?
Nhà khoa học dữ liệu làm gì?
Data Science và Business Intelligence (BI) khác nhau như thế nào?
Các công việc cụ thể trong Khoa học dữ liệu
Khoa học dữ liệu (data science) là gì?
Khoa học dữ liệu là sự kết hợp của nhiều công cụ, thuật toán và nguyên tắc học máy với mục tiêu khám phá các mẫu ẩn từ dữ liệu thô. Nhưng điều này khác gì với công việc các nhà thống kê/ nhà phân tích dữ liệu đã làm trong nhiều năm?
Câu trả lời nằm ở sự khác biệt giữa giải thích và dự đoán.
Nhà thống kê/ nhà phân tích dữ liệu (statistician/ data analyst) thường giải thích những gì đang xảy ra bằng cách phân tích dữ liệu lịch sử. Trong khi đó, nhà khoa học dữ liệu (data scientist) không chỉ thực hiện phân tích dữ liệu để khai thác thông tin chi tiết từ đó, hay còn gọi là phân tích mô tả (descriptive analytics) mà còn sử dụng các thuật toán học máy nâng cao khác nhau để xác định khả năng xuất hiện của một sự kiện cụ thể trong tương lai. Một nhà khoa học dữ liệu sẽ xem xét dữ liệu từ nhiều góc độ, đôi khi là những góc độ không được biết đến từ trước.
Nói cách khác, Khoa học dữ liệu chủ yếu được sử dụng để dự đoán và hỗ trợ việc đưa ra quyết định bằng cách sử dụng phân tích dự đoán nguyên nhân – kết quả (predictive causal analytics), phân tích đề xuất (prescriptive analytics – dự đoán cộng với đề xuất hành động phù hợp) và học máy (machine learning).
Phân tích dự đoán nguyên nhân – kết quả (predictive causal analytics) – là mô hình sử dụng để dự đoán các khả năng của một sự kiện cụ thể trong tương lai. Ví dụ, nếu bạn là người cho vay tín dụng, bạn sẽ quan tâm đến khả năng khách hàng thực hiện các khoản thanh toán đúng hạn traong tương lai. Như vậy, bạn có thể sẽ cần xây dựng một mô hình phân tích dự đoán về lịch sử thanh toán của khách hàng để dự đoán liệu trong tương lai họ có thanh toán đúng hạn hay không.
Phân tích đề xuất (prescriptive analytics): là một mô hình có khả năng tự quyết định thông minh và khả năng sửa đổi mô hình đó với các tham số động. Nói một cách khái quát, phương pháp này không chỉ đưa ra dự đoán mà còn đề xuất một loạt các hành động được xác lập sẵn với mỗi dự đoán và các kết quả liên quan.
Một trong những ứng dụng của phân tích đề xuất là trên xe ô tô tự lái. Máy tính trên xe tự lái sẽ được “dạy” bằng dữ liệu thu thập của các phương tiện khác nhau. Các thuật toán sẽ được thiết lập trên các dữ liệu này. Điều này sẽ cho phép xe của bạn đưa ra các quyết định như khi nào nên rẽ, đi đường nào, khi nào nên giảm tốc độ hoặc tăng tốc độ.
Học máy để đưa ra dự đoán (machine learning for making predictions) – Nếu bạn có dữ liệu giao dịch của một công ty tài chính và cần xây dựng mô hình để xác định xu hướng trong tương lai, thì thuật toán học máy là lựa chọn tốt nhất. Trường hợp này gọi là học máy có giám sát – bạn đã có sẵn dữ liệu để dựa vào đó đào tạo máy của mình. Ví dụ, một mô hình phát hiện giao dịch gian lận có thể được đào tạo bằng cách sử dụng hồ sơ các giao dịch gian lận trước đó.
Học máy để khám phá mẫu (machine learning for pattern discovery) – Nếu bạn không có các thông số để dựa vào đó đưa ra dự đoán, thì bạn cần tìm ra các quy luật ẩn trong tập dữ liệu để có thể đưa ra các dự đoán có ý nghĩa. Mô hình này được gọi là mô hình không giám sát – bạn không có sẵn các tiêu chí để nhóm các dữ liệu với nhau. Thuật toán phổ biến nhất được sử dụng để phân tích mẫu trong trường hợp này là phân cụm (clustering).
Ví dụ, để thiết lập mạng lưới, nhà mạng điện thoại di động cần đặt một số trạm thu phát sóng ở một khu vực nào đó. Trong trường hợp này, nhà mạng có thể sử dụng kỹ thuật phân cụm (clustering) để tìm các vị trí đặt trạm sao cho tất cả người dùng nhận được cường độ tín hiệu tối ưu.
Nói một cách khái quát, phân tích dữ liệu (data analysis) bao gồm phân tích mô tả (descriptive analysis) và dự đoán (predictive analysis) ở một mức độ nhất định. Trong khi đó, khoa học dữ liệu thiên nhiều hơn về phân tích dự đoán (predictive analysis), phân tích đề xuất (prescriptive analytics) và học máy (machine learning).
Tại sao cần sử dụng Khoa học Dữ liệu?
Trước kia, dữ liệu chúng ta có chủ yếu có cấu trúc và kích thước nhỏ, có thể phân tích được bằng các công cụ BI đơn giản. Tuy nhiên, ngày nay hầu hết dữ liệu là không có cấu trúc hoặc bán cấu trúc. Ước tính, vào năm 2020, hơn 80% dữ liệu sẽ là không có cấu trúc.
Dữ liệu này được tạo từ các nguồn khác nhau như nhật ký tài chính, tệp văn bản, biểu mẫu đa phương tiện, cảm biến và công cụ. Các công cụ BI đơn giản không có khả năng xử lý khối lượng lớn và nhiều loại dữ liệu như vậy. Đó là lý do tại sao chúng ta cần các công cụ và thuật toán phân tích phức tạp và nâng cao hơn để xử lý, phân tích và đưa ra những kết luận có ý nghĩa.
Đó không phải là lý do duy nhất khiến Khoa học dữ liệu trở nên phổ biến như vậy. Hãy cùng tìm hiểu sâu hơn và xem Khoa học dữ liệu đang được sử dụng như thế nào trong các lĩnh vực khác nhau.
Bạn có muốn hiểu các yêu cầu chính xác của khách hàng từ dữ liệu hiện có như lịch sử duyệt web, lịch sử mua hàng, tuổi và thu nhập của khách hàng không? Chắc chắn là bạn đã có tất cả dữ liệu này trước đó, nhưng bây giờ với lượng dữ liệu phong phú và đa dạng, bạn có thể đào tạo mô hình hiệu quả hơn và giới thiệu sản phẩm cho khách hàng của mình chính xác hơn. Kết quả kinh doanh nhờ đó sẽ được cải thiện.
Một ví dụ khác về vai trò của Khoa học dữ liệu trong việc ra quyết định là xe ô tô tự lái. Xe tự lái thu thập dữ liệu trực tiếp từ các cảm biến, bao gồm radar, camera và tia laser để tạo bản đồ về môi trường xung quanh. Dựa trên dữ liệu này, nó đưa ra các quyết định như khi nào cần tăng tốc, khi nào giảm tốc độ, khi nào cần vượt, nơi rẽ – sử dụng các thuật toán học máy tiên tiến.
Hãy xem cách Khoa học dữ liệu có thể được sử dụng trong phân tích dự đoán. Ví dụ trong dự báo thời tiết, dữ liệu từ tàu, máy bay, radar, vệ tinh có thể được thu thập và phân tích để xây dựng mô hình. Những mô hình này sẽ không chỉ dự báo thời tiết mà còn giúp dự đoán sự xuất hiện của thiên tai. Nó sẽ giúp bạn có những biện pháp phòng tránh thích hợp và giảm thiểu thiệt hại/ thương vong do thiên tai gây ra.
Nhà khoa học dữ liệu (data scientist) là ai?
Có nhiều định nghĩa về nhà khoa học dữ liệu. Nhưng nói một cách đơn giản, Nhà khoa học dữ liệu là người thực hành nghệ thuật của Khoa học dữ liệu. “Nhà khoa học dữ liệu” thu thập rất nhiều thông tin từ các lĩnh vực khoa học và ứng dụng khác nhau, không chỉ là toán học hay thống kê.
Nhà khoa học dữ liệu làm gì?
Các nhà khoa học dữ liệu là những người giải quyết các vấn đề dữ liệu phức tạp bằng chuyên môn của họ trong một số lĩnh vực khoa học nhất định. Họ làm việc với một số yếu tố liên quan đến toán học, thống kê, khoa học máy tính, v.v. (mặc dù họ có thể không phải là chuyên gia trong tất cả các lĩnh vực này). Họ sử dụng rất nhiều công nghệ mới nhất để tìm ra giải pháp và đưa ra kết luận quan trọng đối với sự tăng trưởng và phát triển của tổ chức. Nhà khoa học dữ liệu trình bày dữ liệu ở dạng hữu ích hơn nhiều so với dữ liệu thô có cấu trúc hoặc không có cấu trúc ban đầu.
Bây giờ chúng ta hãy thảo luận về BI. Có thể bạn đã nghe nói về Business Intelligence (BI). Khoa học dữ liệu thường bị nhầm lẫn với BI. Sau đây sẽ là một số điểm khác biệt cơ bản giữa 2 lĩnh vực này.
Data Science và Business Intelligence (BI) khác nhau như thế nào?
Business Intelligence (BI) về cơ bản phân tích dữ liệu lịch sử để tìm ra những điểm quan trọng nhất nhằm mô tả xu hướng kinh doanh. Với BI, bạn sẽ lấy dữ liệu từ các nguồn bên ngoài và nội bộ, chuẩn bị dữ liệu, chạy các truy vấn trên đó và tạo trang tổng quan để trả lời các câu hỏi như phân tích doanh thu hàng quý hoặc các vấn đề kinh doanh. BI có thể đánh giá tác động của các sự kiện nhất định trong tương lai gần.
Khoa học dữ liệu là một cách tiếp cận hướng tới tương lai hơn, một cách khám phá với trọng tâm là phân tích dữ liệu trong quá khứ hoặc hiện tại và dự đoán kết quả trong tương lai nhằm đưa ra quyết định. Nó trả lời các câu hỏi mở về “điều gì” và “làm thế nào” điều đó sẽ xảy ra.

Các công việc cụ thể trong Khoa học dữ liệu
Các công việc trong Khoa học dữ liệu có thể chia làm 6 giai đoạn chính:
Giai đoạn 1 — Khám phá: Trước khi bạn bắt đầu dự án, bạn cần phải hiểu các thông số kỹ thuật, yêu cầu, mức độ ưu tiên khác nhau và ngân sách cần thiết. Bạn phải có khả năng đặt đúng câu hỏi. Ở giai đoạn này, bạn cần đánh giá xem bạn có đủ các nguồn lực cần thiết về con người, công nghệ, thời gian và dữ liệu để hỗ trợ dự án hay không. Bạn cũng cần định hình vấn đề kinh doanh và hình thành các giả thuyết ban đầu (Initial hypotheses – IH) để kiểm tra.
Giai đoạn 2 — Chuẩn bị dữ liệu: Trong giai đoạn này, bạn cần khám phá, làm sạch và đặt các điều kiện cho dữ liệu trước khi xây dựng mô hình. Tiếp đến, bạn sẽ thực hiện ETLT (extract, transform, load and transform- trích xuất, chuyển đổi, tải và chuyển đổi) để có được dữ liệu đầu vào cho mô hình.
Bạn có thể sử dụng R để làm sạch, chuyển đổi và trực quan dữ liệu. Từ đó bạn phát hiện ra những điểm bất thường và thiết lập mối quan hệ giữa các biến. Sau khi bạn đã làm sạch và chuẩn bị dữ liệu, bạn có thể bắt đầu thực hiện phân trên dữ liệu đó.
Giai đoạn 3 — Lập kế hoạch cho mô hình: ở bước này, bạn sẽ xác định các phương pháp và kỹ thuật để phác thảo mối quan hệ giữa các biến. Những mối quan hệ này sẽ đặt cơ sở cho các thuật toán mà bạn sẽ triển khai trong giai đoạn tiếp theo. Bạn sẽ áp dụng Phân tích dữ liệu khám phá (Exploratory Data Analytics – EDA) bằng cách sử dụng các công thức thống kê và công cụ trực quan hóa khác nhau.
Một số công cụ để lập kế hoạch mô hình:
- R có khả năng mô hình hóa toàn diện và cung cấp một môi trường tốt để xây dựng các mô hình diễn giải.
- Các dịch vụ Phân tích SQL có thể thực hiện phân tích dữ liệu trong cơ sở dữ liệu bằng cách sử dụng các chức năng khai thác dữ liệu phổ biến và các mô hình dự đoán cơ bản.
- SAS / ACCESS có thể được sử dụng để truy cập dữ liệu từ Hadoop và được sử dụng để tạo sơ đồ mô hình có thể lặp lại và tái sử dụng.
Tuy có nhiều công cụ khác nhau nhưng R là công cụ được sử dụng phổ biến nhất.
Giai đoạn 4 — Xây dựng mô hình: Trong giai đoạn này, bạn sẽ xây dựng các bộ dữ liệu cho mục đích đào tạo và thử nghiệm. Tại đây, bạn cần xem xét liệu các công cụ hiện có của bạn có đủ để chạy các mô hình hay không, hay cần một môi trường mạnh mẽ hơn (như xử lý nhanh và song song). Bạn sẽ phân tích các kỹ thuật học máy khác nhau như phân loại, liên kết và phân cụm để xây dựng mô hình.
Các công cụ phổ biến để xây dựng mô hình:
- SAS Enterprise Miner
- WEKA
- SPCS Modeler
- Matlab
- Alpine Miner
- Statistica
Giai đoạn 5 — Vận hành: Trong giai đoạn này, bạn trình bày các báo cáo, bản tóm tắt, code và tài liệu kỹ thuật. Ngoài ra, đôi khi bạn còn có thể thực hiện một dự án thử nghiệm trong môi trường sản xuất thực. Điều này sẽ cung cấp cho bạn một bức tranh rõ ràng về hiệu suất và các ràng buộc liên quan khác ở quy mô nhỏ trước khi triển khai đầy đủ.
Giai đoạn 6 — Truyền đạt kết quả: tại đây, bạn phải đánh giá xem bạn có thể đạt được mục tiêu mà bạn đã lên kế hoạch trong giai đoạn đầu hay không. Vì vậy, trong giai đoạn cuối, bạn xác định tất cả các phát hiện chính, thông báo cho các bên liên quan và xác định xem kết quả của dự án là thành công hay thất bại dựa trên các tiêu chí đã phát triển trong Giai đoạn 1.