Học khoa học dữ liệu với người mới bắt đầu có vẻ như là một việc quá sức. Ở đâu tôi có thể tìm được các code mẫu, dữ liệu, ý tưởng, và thực hành các kỹ năng của mình? Có một nơi mà bạn có thể tìm thấy tất cả những điều trên, đó chính là Kaggle. Tại đây có hàng trăm, thậm chí hàng nghìn nhà khoa học dữ liệu đang tham gia các thử thách khác nhau, cố gắng cải thiện mô hình và gửi điểm số của họ để cạnh tranh các thứ hạng cao nhất. Bạn đừng vội nản lòng, đây không chỉ là nơi xếp hạng các kỹ năng của bạn, mà còn là nơi bạn có thể xem và học hỏi từ những đoạn code và ý tưởng mới từ những người giỏi nhất. Nếu bạn đang nghiên cứu về khoa học dữ liệu, tôi chắc chắn bạn sẽ còn ghé thăm trang web này rất nhiều lần.
Mục lục
Kaggle là gì
Những lợi ích
Kết luận
Tham khảo
Kaggle là gì?
Kaggle là gì? Kaggle (www.kaggle.com) là một trang web để chia sẻ ý tưởng, tìm cảm hứng, tham gia các cuộc thi cùng với các nhà khoa học dữ liệu khác, học hỏi thông tin mới và thủ thuật code, cũng như xem các ví dụ khác nhau về các ứng dụng khoa học dữ liệu trong thế giới thực. Có rất nhiều bộ dữ liệu được chia sẻ, từ đơn giản như bán trò chơi điện tử, cho đến những thứ phức tạp và quan trọng hơn như dữ liệu ô nhiễm không khí. Dữ liệu này là dữ liệu thực và được dẫn nguồn, vì vậy bạn có thể đào tạo và thử nghiệm các mô hình của mình trên các dự án có ứng dụng thực tế.
Có rất nhiều tính năng hữu ích khác của Kaggle như dữ liệu, code, cộng đồng, cảm hứng, các cuộc thi và khóa học. Tôi sẽ trình bày chi tiết những lợi ích này dưới đây để bạn tự tìm cho mình một số cách sử dụng Kaggle.
Những lợi ích
Dưới đây là một số lợi ích của Kaggle, đó là lý do những người nghiên cứu khoa học dữ liệu sử dụng trang web này và bạn cũng nên như vậy.
Dữ liệu
Có rất nhiều bộ dữ liệu bạn có thể sử dụng trên Kaggle. Lựa chọn menu Datasets, bạn có thể xem danh sách các tập dữ liệu, cũng như tìm kiếm theo tên các tập dữ liệu cụ thể để sử dụng trong mô hình khoa học dữ liệu của bạn. Hầu hết các tập dữ liệu đều ở định dạng tệp .csv. Ít phổ biến hơn, nhưng vẫn hữu ích, là các tập dữ liệu ở định dạng JSON, SQLite, archives và BigQuery. Thực hành với các định dạng file dữ liệu khác nhau sẽ khá hữu ích cho công việc khoa học dữ liệu trong tương lai của bạn. Một số ví dụ về các bộ dữ liệu ‘hot nhất’ hiện nay
– Phim và chương trình Netflix
– Tiến trình tiêm vắc xin Covid-19 trên toàn cầu
– Thống kê về các Trending video trên Youtube
Nguồn: www.kaggle.com/datasets
Code
Code trên Kaggle rất phong phú. Trong phần Code, bạn có thể xem rất nhiều Notebooks có chứa các đoạn code cũng như phần text mà những người dung Kaggle khác thêm vào để giải thích code của họ. Đó là cách tuyệt vời để học, thực hành và xem những người khác giải quyết các vấn đề tương tự như thế nào. Hầu hết mọi người đều viết mã bằng Python, nhưng có những ngôn ngữ lập trình khác như R, SQLite và Julia.
Các đoạn code thường được lưu dưới dạng notebook, hay Jupyter notebook, ở định dạng tệp .ipynb. Bạn sẽ tìm thấy những ví dụ thể hiện quá trình xây dựng mô hình học máy hoàn thiện từ đầu tới cuối. Một số bao gồm, nhập và làm sạch dữ liệu, phân tích giải thích dữ liệu, chuyển đổi tập dữ liệu thành các thuộc tính (feature engineering), tạo mô hình để training, triển khai mô hình học máy cuối cùng, đầu ra và giải thích kết quả. Quy trình này cũng là quy trình hầu hết các nhà khoa học dữ liệu sẽ sử dụng trong thực tế.
Cộng đồng
Cũng giống như Medium, GitHub, Stack Overflow và LinkedIn, Kaggle đóng vai trò như một cộng đồng nơi các nhà phân tích dữ liệu, nhà khoa học dữ liệu và kỹ sư học máy có thể học hỏi, phát triển và kết nối. Bạn có thể đăng công việc của mình (dữ liệu, code và notebook), và chúng sẽ được chia sẻ để xây dựng cộng đồng của riêng bạn. Bạn sẽ thu được nhiều lợi ích từ việc kết nối với các nhóm cộng đồng khác nhau, vì vậy hãy bắt đầu sử dụng Kaggle để phát triển cộng đồng của riêng bạn và tiếp cận với các cộng đồng khác.
Các cuộc thi
Nếu bạn muốn thử thách bản thân, kiểm tra xem bạn xếp hạng như thế nào trong số các những người làm khoa học dữ liệu, làm đẹp CV, kiếm thêm tiền, hay quan trọng nhất, giúp đỡ mọi người, hãy tham gia các cuộc thi (competition). Kaggle cung cấp vô số cuộc thi để bạn có thể đạt được tất cả các lợi ích nói trên. Hãy xem những cuộc thi hàng đầu và số tiền thưởng trong hình dưới đây. Bạn thấy đấy, đây không chỉ đơn thuần là những cuộc cạnh tranh mà còn vì lợi ích lớn hơn như là đóng góp cho lĩnh vực y tế.
Nguồn: www.kaggle.com/competitions
Các khóa học
Một điều khá thú vị là Kaggle còn cung cấp các khóa học về khoa học dữ liệu. Có khoảng 15 khóa học bạn có thể tham gia và chúng được liệt kê bên dưới. Không chỉ Python, bạn sẽ tìm thấy cả các khóa học về SQL và nhiều khóa học thú vị khác. Dưới đây là tất cả các khóa học bạn có thể tìm thấy trên Kaggle:
Python
Intro to Machine Learning
Intermediate Machine Learning
Data Visualization
Pandas
Feature Engineering
Deep Learning
Intro to SQL
Advanced SQL
Geospatial Analysis
Microchallenges
Machine Learning Explainability
Natural Language Processing
Intro to Game AI and Reinforcement Learning
Feature Engineering
Nguồn: www.kaggle.com/learn/overview
Truyền cảm hứng
Các dữ liệu, code, cộng đồng, khóa học và cuộc thi sẽ truyền nhiều cảm hứng cho bạn. Nhìn thấy những người khác thể hiện tốt trong một cuộc thi giúp ích cho cộng đồng hoặc công ty sẽ mang lại nguồn cảm hứng lớn. Nếu bạn đang bế tắc về những gì cần học tiếp theo hoặc cách thực hiện một thuật toán nào đó, có lẽ hãy xem cách ai đó triển khai một mô hình nhất định, bạn có thể có những ý tưởng mới, truyền cảm hứng cho bạn sáng tạo công việc tốt hơn.
Kết luận
Kaggle cung cấp nhiều tài nguyên cho các nhà khoa học dữ liệu hàng đầu. Bạn có thể tìm thấy: dữ liệu, code, cộng đồng, các cuộc thi, các khóa học và nhiều điều khác nữa.
Tôi hy vọng bạn thấy bài viết này thú vị và hữu ích! Hãy đăng ký tài khoản Kaggle và khám phá thêm nhé!
Tham khảo
Kaggle Inc., www.kaggle.com