Học máy (machine learning) được định nghĩa là việc nghiên cứu các chương trình máy tính sử dụng các thuật toán và mô hình thống kê để học thông qua suy luận và quy luật mà không cần lập trình rõ ràng. Lĩnh vực Học máy đã có những bước phát triển đáng kể trong thập kỷ qua.
Trong bài viết này, chúng tôi giải thích về học máy, phân nhóm các thuật toán học máy và các ứng dụng của học máy đối với doanh nghiệp.
Trí tuệ nhân tạo (Artificial Intelligence) là gì?
Học máy (Machine learning) là gì?
So sánh Trí tuệ nhân tạo và Học máy
Phân loại các thuật toán học máy
- Học có giám sát (Supervised Learning)
- Học không giám sát (Unsupervised Learning)
- Học Củng Cố (Reinforcement Learning)
Học máy (Machine learning) đã được chứng minh là một trong những tiến bộ công nghệ thay đổi cuộc chơi nhiều nhất trong thập kỷ qua. Trong thế giới doanh nghiệp ngày càng cạnh tranh, học máy đang cho phép các công ty theo dõi nhanh quá trình chuyển đổi kỹ thuật số và chuyển sang thời đại tự động hóa. Một số người thậm chí có thể cho rằng trí tuệ nhân tạo (AI) / Machine learning là yêu cầu bắt buộc trong một số ngành dọc, chẳng hạn như thanh toán kỹ thuật số, phát hiện gian lận trong lĩnh vực ngân hàng, hay đề xuất sản phẩm cho khách hàng trong thương mại điện tử.
Ngày nay, mọi ứng dụng và phần mềm khác trên Internet đều sử dụng học máy ở hình thức này hay hình thức khác. Học máy đã trở nên phổ biến đến mức giờ đây nó đã trở thành giải pháp phổ biến cho các công ty để giải quyết hàng loạt vấn đề.
Trong bài viết này, chúng ta sẽ đi sâu hơn vào học máy là gì, định nghĩa cơ bản về học máy, các loại thuật toán học máy và một vài ví dụ về học máy trong thực tế. Chúng ta cũng sẽ xem xét sự khác biệt giữa trí tuệ nhân tạo và học máy.
Trí tuệ nhân tạo (Artificial Intelligence) là gì?
Để hiểu học máy là gì, trước tiên chúng ta phải xem xét các khái niệm cơ bản về trí tuệ nhân tạo (AI). AI được định nghĩa là một chương trình thể hiện khả năng nhận thức tương tự như của con người. Làm cho máy tính suy nghĩ như con người và giải quyết vấn đề theo cách chúng ta làm là một trong những nguyên lý chính của trí tuệ nhân tạo. AI tồn tại như một thuật ngữ chung được sử dụng để chỉ tất cả các chương trình máy tính có thể suy nghĩ như con người. Bất kỳ chương trình máy tính nào thể hiện các đặc điểm, chẳng hạn như tự cải thiện, học hỏi thông qua suy luận, hoặc thậm chí các nhiệm vụ cơ bản của con người, chẳng hạn như nhận dạng hình ảnh và xử lý ngôn ngữ, đều được coi là một dạng AI.
Học máy (Machine learning) là gì?
Với các thuật toán học máy, AI đã phát triển cao hơn việc chỉ thực hiện các nhiệm vụ mà nó đã được lập trình sẵn. Trước khi Machine learning trở thành xu hướng chính, các chương trình AI chỉ được sử dụng để tự động hóa các tác vụ cấp thấp trong các doanh nghiệp và cơ sở kinh doanh, bao gồm các nhiệm vụ như tự động hóa thông minh hoặc phân loại dựa trên quy tắc đơn giản. Điều này có nghĩa là các thuật toán AI chỉ được giới hạn trong phạm vi của những công việc chúng được lập trình để xử lý.
Với công nghệ học máy, máy tính đã có thể làm được hơn những gì được lập trình sẵn và bắt đầu phát triển với mỗi lần tác vụ được lặp lại. Học máy về cơ bản khác với trí tuệ nhân tạo, ở chỗ nó có khả năng phát triển. Sử dụng các kỹ thuật lập trình khác nhau, các thuật toán học máy có thể xử lý một lượng lớn dữ liệu và trích xuất thông tin hữu ích. Bằng cách này, học máy có thể cải thiện hơn các lần lặp trước đó bằng cách học hỏi từ dữ liệu mà nó được cung cấp.
Chúng ta không thể nói về học máy mà không nói về dữ liệu lớn (big data), một trong những khía cạnh quan trọng nhất của thuật toán học máy. Kết quả của bất kỳ loại AI nào cũng phụ thuộc vào chất lượng của tập dữ liệu đầu vào, vì lĩnh vực này sử dụng nhiều các phương pháp thống kê. Học máy không phải là ngoại lệ, và một luồng dữ liệu đa dạng, có tổ chức tốt là cần thiết để có một giải pháp học máy mạnh mẽ. Trong thế giới trực tuyến ngày nay, các công ty có quyền truy cập vào một lượng lớn dữ liệu về khách hàng của họ, thường là hàng triệu. Dữ liệu này, lớn cả về số điểm dữ liệu và số trường, được gọi là dữ liệu lớn do lượng thông tin tuyệt đối mà nó lưu giữ. Dữ liệu lớn tốn nhiều thời gian và khó xử lý theo tiêu chuẩn của con người, nhưng dữ liệu chất lượng tốt là nguồn gốc tốt nhất để đào tạo thuật toán học máy. Dữ liệu càng sạch, có thể sử dụng được và máy đọc được trong một tập dữ liệu lớn thì việc đào tạo thuật toán học máy càng hiệu quả. Như đã giải thích, các thuật toán học máy có khả năng tự cải thiện thông qua đào tạo. Ngày nay, các thuật toán học máy được đào tạo bằng cách sử dụng ba phương pháp nổi bật. Đây là ba nhóm phương pháp học máy: Học có giám sát (Supervised Learning), Học không giám sát (Unsupervised Learning), Học Củng Cố (Reinforcement Learning).
So sánh Trí tuệ nhân tạo và Học máy
Như giáo sư người Mỹ Douglas Hofstadter từng nói: “AI là bất cứ điều gì chưa được thực hiện.” Theo logic này, trí tuệ nhân tạo đề cập đến bất kỳ tiến bộ nào trong lĩnh vực máy tính nhận thức, với học máy là một tập hợp con của AI.
Ngày nay, thuật ngữ ‘trí tuệ nhân tạo’ đã được sử dụng nhiều hơn như một thuật ngữ chung để biểu thị công nghệ thể hiện các đặc điểm nhận thức giống con người. Theo quy luật chung, nghiên cứu về AI đang hướng tới một dạng trí tuệ tổng quát hơn, tương tự như cách trẻ mới biết đi suy nghĩ và nhận thức thế giới xung quanh. Điều này có thể đánh dấu sự phát triển của AI từ một chương trình được xây dựng có mục đích cho một nhiệm vụ “hẹp” thành một giải pháp được triển khai cho các giải pháp “tổng quát”; như những gì chúng ta có thể mong đợi từ trí tuệ con người.
Học máy là một tập hợp con của AI dùng để nói đến các thuật toán có thể tự động cải thiện. Chúng không được lập trình tĩnh cho một nhiệm vụ như nhiều chương trình AI mà có thể được cải thiện ngay cả sau khi chúng được triển khai. Điều này không chỉ làm cho chúng phù hợp với các ứng dụng trong doanh nghiệp mà còn là một cách mới để giải quyết các vấn đề trong một môi trường luôn thay đổi. Học máy cũng bao gồm Deep learning, một ngành học chuyên biệt nắm giữ chìa khóa cho tương lai của AI. Deep learning sử dụng mạng lưới thần kinh (neural network), một loại thuật toán dựa trên cấu trúc vật lý của não người. Mạng lưới thần kinh (neural network) dường như là con đường hiệu quả nhất cho nghiên cứu AI, vì nó cho phép mô phỏng não người gần gũi hơn nhiều so với những gì từng thấy trước đây.
Phân loại các thuật toán học máy

Có nhiều cách khác nhau để đào tạo các thuật toán học máy, mỗi cách đều có những ưu và nhược điểm riêng. Để hiểu ưu và nhược điểm của từng loại học máy, trước tiên chúng ta phải xem loại dữ liệu mà chúng sử dụng.
Trong học máy, có hai loại dữ liệu – dữ liệu được gắn nhãn và dữ liệu không được gắn nhãn. Dữ liệu được gắn nhãn có cả các tham số đầu vào và đầu ra trong một mẫu hoàn toàn có thể đọc được bằng máy, nhưng cần rất nhiều sức lao động của con người để gắn nhãn dữ liệu, trước khi bắt đầu phân tích. Dữ liệu không được gắn nhãn chỉ có một hoặc không có tham số nào ở dạng máy có thể đọc được. Điều này có nghĩa là không cần sức lao động của con người để xử lý trước dữ liệu, nhưng cũng đòi hỏi những giải pháp phức tạp hơn.
Có một số loại thuật toán học máy được sử dụng trong các trường hợp sử dụng rất cụ thể, nhưng ba phương pháp chính được sử dụng ngày nay là các phương pháp sau.
Học có giám sát (Supervised Learning)
Học có giám sát là một trong những phương pháp học máy cơ bản nhất. Trong phương pháp này, thuật toán học máy được đào tạo trên dữ liệu có gắn nhãn. Mặc dù phương pháp này đòi hỏi dữ liệu cần được gắn nhãn chính xác từ trước, nhưng phương pháp học có giám sát là phương pháp cực kỳ mạnh mẽ khi được sử dụng trong những trường hợp phù hợp.
Trong học có giám sát, thuật toán học máy được cung cấp một tập dữ liệu đào tạo nhỏ (training dataset) để làm việc. Tập dữ liệu đào tạo này là một phần nhỏ hơn của tập dữ liệu lớn hơn và dùng để cung cấp cho thuật toán một ý tưởng cơ bản về vấn đề, giải pháp và các điểm dữ liệu cần xử lý. Tập dữ liệu đào tạo cũng rất giống với tập dữ liệu cuối cùng về các đặc điểm và cung cấp cho thuật toán các tham số được gắn nhãn cần thiết cho bài toán.
Sau đó, thuật toán tìm mối quan hệ giữa các tham số cho trước, về cơ bản là thiết lập mối quan hệ nguyên nhân và kết quả giữa các biến trong tập dữ liệu. Ở cuối quá trình đào tạo, thuật toán có một ý tưởng về cách dữ liệu hoạt động và mối quan hệ giữa đầu vào và đầu ra.
Giải pháp này sau đó được triển khai để sử dụng với tập dữ liệu cuối cùng, mà nó học được từ đó theo cách tương tự như tập dữ liệu đào tạo. Điều này có nghĩa là các thuật toán học máy được giám sát sẽ tiếp tục cải thiện ngay cả sau khi được triển khai, khám phá các mẫu và mối quan hệ mới khi nó tự học trên dữ liệu mới.
Học không giám sát (Unsupervised Learning)
Học máy không giám sát có lợi thế là có thể làm việc với dữ liệu không được gắn nhãn. Điều này có nghĩa là không cần đến sức lao động của con người để máy có thể đọc được bộ dữ liệu, cho phép chương trình làm việc trên các bộ dữ liệu lớn hơn nhiều.
Trong học máy có giám sát, các nhãn cho phép thuật toán tìm ra bản chất chính xác của mối quan hệ giữa hai điểm dữ liệu bất kỳ. Tuy nhiên, việc học không có giám sát không có nhãn để giải quyết, dẫn đến việc tạo ra các cấu trúc ẩn. Mối quan hệ giữa các điểm dữ liệu được thuật toán nhận thức theo cách trừu tượng, không cần con người đưa ra đầu vào.
Việc tạo ra các cấu trúc ẩn này làm cho các thuật toán học máy không giám sát trở nên linh hoạt. Thay vì một tuyên bố vấn đề được xác định và thiết lập, các thuật toán học máy không giám sát có thể thích ứng với dữ liệu bằng cách thay đổi động các cấu trúc ẩn. Điều này mang lại sự phát triển sau triển khai nhiều hơn so với các thuật toán học máy có giám sát.
Học Củng Cố (Reinforcement Learning)
Học máy củng cố trực tiếp lấy cảm hứng từ cách con người học hỏi từ dữ liệu trong cuộc sống. Nó có một thuật toán tự cải thiện và học hỏi từ các tình huống mới bằng cách sử dụng phương pháp thử-và-sai. Các đầu ra thuận lợi được khuyến khích hoặc ‘củng cố’, và các đầu ra không thuận lợi không được khuyến khích hoặc ‘bị trừng phạt’.
Dựa trên khái niệm tâm lý về điều kiện, học tăng cường hoạt động bằng cách đưa thuật toán vào môi trường làm việc với trình thông dịch và hệ thống khen thưởng. Trong mỗi lần lặp lại thuật toán, kết quả đầu ra được đưa cho trình thông dịch để đánh giá liệu kết quả có thuận lợi hay không.
Trong trường hợp chương trình tìm ra giải pháp chính xác, trình thông dịch củng cố giải pháp bằng cách cung cấp phần thưởng cho thuật toán. Nếu kết quả không thuận lợi, thuật toán buộc phải làm lại cho đến khi tìm thấy kết quả tốt hơn. Trong hầu hết các trường hợp, hệ thống phần thưởng gắn liền trực tiếp với hiệu quả của kết quả.
Trong các trường hợp sử dụng học máy củng cố điển hình, chẳng hạn như tìm đường ngắn nhất giữa hai điểm trên bản đồ, lời giải không phải là giá trị tuyệt đối. Thay vào đó, nó dựa trên điểm hiệu quả, được biểu thị bằng giá trị phần trăm. Giá trị phần trăm này càng cao thì thuật toán càng được trao nhiều phần thưởng. Vì vậy, chương trình được đào tạo để đưa ra giải pháp tốt nhất có thể để đạt được phần thưởng tốt nhất có thể.
Các ứng dụng của Học máy
Các thuật toán học máy được sử dụng trong các trường hợp giải pháp cần phải tiếp tục được cải thiện sau khi triển khai. Tính năng động của các giải pháp học máy thích ứng là một trong những lợi điểm chính để các công ty và tổ chức áp dụng nó ở nhiều ngành dọc khác nhau.
Các thuật toán và giải pháp học máy rất linh hoạt và có thể được sử dụng để thay thế cho những lao động có kỹ năng trung bình trong điều kiện thích hợp. Ví dụ, nhân viên chăm sóc khách hàng trong các công ty B2C lớn hiện đã được thay thế bằng các thuật toán máy học xử lý ngôn ngữ tự nhiên được gọi là chatbots. Các chatbot này có thể phân tích các câu hỏi của khách hàng và hỗ trợ cho nhân viên chăm sóc khách hàng hoặc trực tiếp trả lời cho khách hàng.
Các thuật toán học máy cũng giúp cải thiện trải nghiệm người dùng và khả năng tùy chỉnh cho các nền tảng trực tuyến. Facebook, Netflix, Google và Amazon đều sử dụng hệ thống đề xuất để tránh đưa ra quá nhiều nội dung và cung cấp nội dung độc đáo cho từng người dùng dựa trên lượt thích và không thích của họ. Facebook áp dụng các công cụ đề xuất cho news feed trên cả Facebook và Instagram, cũng như trong các dịch vụ quảng cáo để tìm kiếm những khách hàng tiềm năng. Netflix thu thập dữ liệu người dùng và đề xuất các bộ phim và chương trình khác nhau dựa trên sở thích của người dùng. Google sử dụng công nghệ học máy cho công cụ tìm kiếm, hệ thống đề xuất video của YouTube, và trong nhiều ứng dụng khác. Amazon sử dụng học máy để hiển thị các sản phẩm có liên quan cho người dùng, tối đa hóa tỷ lệ chuyển đổi bằng cách đề xuất các sản phẩm mà người dùng thực sự muốn mua.