CHƯƠNG 1: KHAI THÁC DỮ LIỆU VÀ THÔNG TIN
Mục tiêu chương: Chương này nhằm trang bị cho sinh viên năng lực khai thác, phân tích và xử lý dữ liệu số (CO2), giúp sinh viên hiểu rõ các khái niệm nền tảng về dữ liệu (CLO1) và thành thạo trong việc sử dụng các công cụ để thu thập, phân tích và quản lý thông tin một cách hiệu quả và có trách nhiệm (CLO2).
1.1. Khái niệm và Phân loại Dữ liệu
Định nghĩa Dữ liệu (Data)
Trong kỷ nguyên số, dữ liệu được xem là tài sản cốt lõi, là nền tảng cho mọi quyết định kinh doanh và nghiên cứu khoa học. Về bản chất, dữ liệu (data) là một tập hợp các sự kiện, quan sát, nhận thức, số liệu, ký tự, biểu tượng, hình ảnh hoặc video được lưu trữ và có thể được diễn giải để mang lại một ý nghĩa nhất định.1 Dữ liệu ở dạng thô là nguyên liệu đầu vào cho quá trình phân tích, từ đó trích xuất ra thông tin (information) và tri thức (knowledge) hữu ích.
Phân loại Dữ liệu theo Cấu trúc
Dữ liệu có thể được phân loại thành ba nhóm chính dựa trên mức độ tổ chức và cấu trúc của nó. Việc phân biệt các loại dữ liệu này là cực kỳ quan trọng vì mỗi loại đòi hỏi các công cụ và phương pháp tiếp cận khác nhau để lưu trữ, xử lý và phân tích.
- Dữ liệu có cấu trúc (Structured Data):
- Dữ liệu phi cấu trúc (Unstructured Data):
- Dữ liệu bán cấu trúc (Semi-structured Data):
Sự bùng nổ của Internet, mạng xã hội và các thiết bị IoT đã tạo ra một khối lượng khổng lồ dữ liệu phi cấu trúc và bán cấu trúc, vượt xa khả năng xử lý của các công cụ phân tích truyền thống.4 Dữ liệu này, chứa đựng những hiểu biết sâu sắc về hành vi và xu hướng mà dữ liệu có cấu trúc không thể nắm bắt, đã tạo ra một nhu cầu cấp thiết cho các công nghệ mới có khả năng "hiểu" và khai thác giá trị từ văn bản, hình ảnh và âm thanh.3 Chính nhu cầu này đã trở thành động lực chính thúc đẩy cuộc cách mạng Trí tuệ nhân tạo, đặc biệt là sự phát triển của các lĩnh vực như NLP và Thị giác máy tính, để giải quyết bài toán phân tích dữ liệu phi cấu trúc.
Bảng 1: So sánh các loại dữ liệu
Để cung cấp một cái nhìn tổng quan và dễ so sánh, các đặc điểm cốt lõi của ba loại dữ liệu được tóm tắt trong bảng dưới đây.
1.2. Quản lý, Tổ chức và Lưu trữ Thông tin
Nguyên tắc quản lý thông tin số hiệu quả
Quản lý dữ liệu hiệu quả là nền tảng để khai thác giá trị từ tài sản số. Các nguyên tắc cơ bản bao gồm:
- Thu thập dữ liệu thực sự cần thiết: Tránh việc thu thập quá nhiều dữ liệu không liên quan, gây lãng phí tài nguyên lưu trữ và chi phí nhân lực.5
- Đồng nhất và làm sạch dữ liệu (Data Cleaning): Dữ liệu thô thường không nhất quán và chứa lỗi. Cần có một quy trình để làm sạch, chuẩn hóa và loại bỏ các dữ liệu không cần thiết theo một chu kỳ nhất định để đảm bảo chất lượng và độ tin cậy của kết quả phân tích.5
- Bảo mật và Kiểm soát truy cập: Thiết lập các cơ chế phân quyền truy cập chặt chẽ. Không phải tất cả dữ liệu đều nên được chia sẻ với mọi nhân viên; dữ liệu nhạy cảm cần được bảo vệ và chỉ cho phép những người có thẩm quyền truy cập.5
- Sao lưu thường xuyên (Backup): Thực hiện sao lưu dữ liệu một cách định kỳ là biện pháp phòng ngừa quan trọng nhất để đối phó với các sự cố như tấn công mạng hoặc lỗi hệ thống, đảm bảo hoạt động không bị gián đoạn.5
Sử dụng các ứng dụng số để thu thập, quản lý và trích dẫn tài liệu
Trong nghiên cứu và học thuật, việc quản lý hàng trăm tài liệu tham khảo là một thách thức lớn. Các phần mềm quản lý trích dẫn như Zotero, Mendeley, và Endnote được thiết kế để tự động hóa quy trình này, giúp tiết kiệm thời gian và đảm bảo tính chính xác.8
- Hướng dẫn chi tiết về Zotero (Công cụ mã nguồn mở và miễn phí):
Bảng 2: So sánh Zotero, Mendeley, Endnote
Việc lựa chọn công cụ quản lý trích dẫn phụ thuộc vào nhu cầu cá nhân, ngân sách và môi trường làm việc. Bảng sau đây so sánh ba công cụ phổ biến nhất để giúp sinh viên đưa ra quyết định phù hợp.8
1.3. Tìm kiếm và Khai thác Thông tin Hiệu quả
Giới thiệu Google Scholar
Google Scholar là một công cụ tìm kiếm miễn phí, chuyên biệt cho các tài liệu học thuật. Nó lập chỉ mục các bài báo đã được bình duyệt, luận văn, sách, bản tóm tắt và báo cáo từ các nhà xuất bản học thuật, các hiệp hội chuyên ngành, các kho lưu trữ trực tuyến, các trường đại học và các trang web học thuật khác.15
Kỹ thuật tìm kiếm nâng cao trên Google Scholar
Để tối ưu hóa kết quả tìm kiếm và tiết kiệm thời gian, sinh viên cần nắm vững các kỹ thuật tìm kiếm nâng cao:
- Sử dụng toán tử tìm kiếm:
- Sử dụng bộ lọc "Tìm kiếm nâng cao":
- Khai thác các tính năng hữu ích:
1.4. Đánh giá và Sử dụng Thông tin có Trách nhiệm
Giới thiệu Phương pháp CRAAP Test
Trong một thế giới tràn ngập thông tin, khả năng đánh giá độ tin cậy của một nguồn tin là một kỹ năng sống còn. CRAAP Test là một bộ khung gồm năm tiêu chí giúp người dùng phân tích và đánh giá chất lượng của thông tin một cách có hệ thống.18 Các tiêu chí bao gồm: Currency (Tính cập nhật), Relevance (Sự liên quan), Authority (Thẩm quyền), Accuracy (Tính chính xác), và Purpose (Mục đích).
Chi tiết các tiêu chí CRAAP
18
- C - Currency (Tính cập nhật):
- R - Relevance (Sự liên quan):
- A - Authority (Tác giả/Thẩm quyền):
- A - Accuracy (Tính chính xác):
- P - Purpose (Mục đích):
Việc trang bị các kỹ năng vận hành công cụ như tìm kiếm trên Google Scholar hay sử dụng Zotero là cần thiết, nhưng chỉ là bước đầu. Trong bối cảnh AI tạo sinh có thể sản xuất thông tin hàng loạt với độ chính xác không đảm bảo, khả năng áp dụng tư duy phản biện thông qua các phương pháp như CRAAP Test trở nên quan trọng hơn bao giờ hết. Các công cụ là phương tiện, nhưng tư duy phản biện mới là chiếc la bàn định hướng. Thiếu la bàn, sinh viên có thể bị lạc lối trong một hệ sinh thái thông tin ngày càng phức tạp và nhiễu loạn. Do đó, năng lực số trong thế kỷ 21 không chỉ là kỹ năng công cụ, mà là năng lực tư duy phản biện trong môi trường số.
CHƯƠNG 2: TỔNG QUAN VỀ TRÍ TUỆ NHÂN TẠO
Mục tiêu chương: Chương này cung cấp cho sinh viên kiến thức nền tảng về Trí tuệ nhân tạo (AI), bao gồm lịch sử, các khái niệm cốt lõi như AI Tạo sinh và Mô hình Ngôn ngữ Lớn (CO1, CLO1). Đồng thời, chương này tập trung vào việc rèn luyện kỹ năng thực hành, giúp sinh viên biết cách tương tác và khai thác hiệu quả các công cụ AI thông qua kỹ thuật xây dựng câu lệnh (prompt engineering) (CLO4).
2.1. Khái niệm, Lịch sử và các loại Trí tuệ nhân tạo
Lịch sử phát triển của AI
Hành trình của Trí tuệ nhân tạo là một câu chuyện kéo dài nhiều thập kỷ với những bước đột phá, những giai đoạn trầm lắng và sự trỗi dậy mạnh mẽ.
- Giai đoạn nền móng (1943-1956): Những ý tưởng đầu tiên về máy móc có khả năng tư duy đã được hình thành. Năm 1943, Warren McCulloch và Walter Pitts đề xuất mô hình toán học đầu tiên cho một nơ-ron nhân tạo.21 Cột mốc quan trọng là vào năm 1950, khi nhà toán học Alan Turing công bố bài báo "Computing Machinery and Intelligence", trong đó ông đề xuất "Phép thử Turing" như một tiêu chuẩn để đánh giá trí thông minh của máy móc.21 Thuật ngữ "Artificial Intelligence" chính thức ra đời vào năm 1956 tại Hội nghị Dartmouth, do John McCarthy khởi xướng, đánh dấu sự khai sinh của AI như một lĩnh vực học thuật độc lập.21
- Những năm vàng son và "Mùa đông AI" (1956-1993): Giai đoạn đầu chứng kiến sự lạc quan và những thành tựu ban đầu trong việc giải quyết các bài toán logic và chơi game. Tuy nhiên, sự cường điệu đã vượt xa khả năng thực tế của công nghệ và sức mạnh tính toán thời bấy giờ, dẫn đến hai giai đoạn "Mùa đông AI" (1974-1980 và 1987-1993), khi nguồn tài trợ cho nghiên cứu bị cắt giảm mạnh mẽ do thiếu các kết quả đột phá.21
- Sự trỗi dậy của Machine Learning (1993-2011): AI hồi sinh nhờ vào sự phát triển của Học máy (Machine Learning), một phương pháp cho phép máy tính học hỏi từ dữ liệu mà không cần lập trình tường minh. Sự kiện máy tính Deep Blue của IBM đánh bại nhà vô địch cờ vua thế giới Garry Kasparov vào năm 1997 đã chứng minh sức mạnh của phương pháp này và thu hút sự chú ý trở lại của công chúng.21
- Kỷ nguyên Deep Learning và Dữ liệu lớn (2011-nay): Đây là giai đoạn bùng nổ mạnh mẽ nhất của AI. Sự kết hợp giữa ba yếu tố: (1) sự sẵn có của các bộ dữ liệu khổng lồ (Big Data), (2) sự gia tăng vượt bậc về sức mạnh tính toán của các bộ xử lý đồ họa (GPU), và (3) các đột phá về thuật toán Học sâu (Deep Learning), đã tạo ra một cuộc cách mạng. Sự kiện AlexNet giành chiến thắng thuyết phục trong cuộc thi nhận dạng hình ảnh ImageNet năm 2012 được coi là khởi đầu của kỷ nguyên này.21 Giai đoạn này đã chứng kiến sự ra đời của các mô hình AI phức tạp chưa từng có, dẫn đến các ứng dụng đột phá như xe tự lái, trợ lý ảo thông minh, và gần đây nhất là AI Tạo sinh và các Mô hình Ngôn ngữ Lớn.21
Phân loại AI theo Năng lực
Trí tuệ nhân tạo thường được phân loại thành ba cấp độ dựa trên khả năng và mức độ thông minh của chúng.
- AI Hẹp (Artificial Narrow Intelligence - ANI):
- AI Tổng quát (Artificial General Intelligence - AGI):
- Siêu AI (Artificial Super Intelligence - ASI):
Bảng 3: So sánh các cấp độ AI
Bảng này giúp làm rõ sự khác biệt giữa thực tế công nghệ hiện tại (ANI) và các khái niệm lý thuyết (AGI, ASI), giúp sinh viên có một cái nhìn thực tế và tránh những kỳ vọng không phù hợp.
Giới thiệu về AI Tạo sinh (Generative AI - GenAI)
- Định nghĩa: AI Tạo sinh là một nhánh của trí tuệ nhân tạo tập trung vào việc tạo ra nội dung mới và nguyên bản, chẳng hạn như văn bản, hình ảnh, âm thanh, video và mã lập trình, thay vì chỉ phân tích hoặc phân loại dữ liệu có sẵn.26
- Cách hoạt động: Các mô hình GenAI được huấn luyện trên một khối lượng dữ liệu khổng lồ. Chúng học các mẫu, cấu trúc và các mối quan hệ tiềm ẩn trong dữ liệu đó. Sau đó, chúng sử dụng kiến thức đã học để tạo ra các sản phẩm mới, có tính sáng tạo và tương tự như dữ liệu huấn luyện nhưng không phải là một bản sao chép.27
Giới thiệu về Mô hình Ngôn ngữ Lớn (Large Language Models - LLMs)
- Định nghĩa: LLMs là các mô hình AI tạo sinh chuyên biệt về ngôn ngữ. Chúng được huấn luyện trên các bộ dữ liệu văn bản khổng lồ (có thể lên tới hàng nghìn tỷ từ) để có thể hiểu, tóm tắt, dịch thuật, dự đoán và tạo ra văn bản giống con người.28 LLMs chính là công nghệ nền tảng đằng sau các chatbot nổi tiếng như ChatGPT.
- Cách hoạt động cơ bản: Hầu hết các LLM hiện đại đều dựa trên một kiến trúc mạng nơ-ron gọi là "Transformer". Quá trình hoạt động có thể được đơn giản hóa như sau: (1) Embedding: Các từ và câu đầu vào được chuyển đổi thành các vector số học, mã hóa ý nghĩa và ngữ cảnh của chúng. (2) Attention Mechanism: Mô hình xác định các từ nào trong câu đầu vào là quan trọng nhất và có liên quan đến nhau để hiểu được ngữ cảnh sâu sắc. (3) Decoding: Dựa trên sự hiểu biết về ngữ cảnh, mô hình dự đoán từ tiếp theo có khả năng xuất hiện cao nhất, rồi từ tiếp theo, cứ thế tạo thành một câu hoặc đoạn văn hoàn chỉnh.28
- Ví dụ: Các mô hình nổi tiếng bao gồm dòng GPT của OpenAI (ví dụ: GPT-4), Gemini (trước đây là LaMDA và PaLM 2) của Google, và Llama của Meta.29
2.2. Vai trò của AI trong phát triển năng lực số và ứng dụng thực tiễn
AI đang thay đổi sâu sắc lĩnh vực giáo dục và nghiên cứu, cung cấp các công cụ mạnh mẽ để nâng cao năng lực học tập và làm việc của sinh viên.
- Cá nhân hóa trải nghiệm học tập: Các hệ thống AI có thể phân tích dữ liệu về quá trình học tập của sinh viên—như tốc độ làm bài, các lỗi thường gặp—để xác định phong cách học, điểm mạnh và điểm yếu. Dựa trên đó, AI có thể đề xuất các tài liệu, bài tập và lộ trình học tập được cá nhân hóa, giúp mỗi sinh viên học theo tốc độ của riêng mình và tập trung vào những lĩnh vực cần cải thiện.31
- Trợ lý học tập và nghiên cứu 24/7: AI cung cấp các công cụ hỗ trợ học tập mọi lúc, mọi nơi:
- Tự động hóa các tác vụ hành chính: Trong môi trường giáo dục, AI có thể giúp giáo viên tự động hóa các công việc tốn thời gian như chấm các bài kiểm tra trắc nghiệm, quản lý lịch học và gửi thông báo, giúp họ có thêm thời gian để tập trung vào việc tương tác và hỗ trợ sinh viên.34
- Tạo ra môi trường học tập tương tác và hấp dẫn: AI có thể được kết hợp với các công nghệ như Thực tế ảo (VR) và Thực tế tăng cường (AR) để tạo ra các phòng thí nghiệm ảo và các mô phỏng tình huống thực tế. Ngoài ra, việc áp dụng các yếu tố trò chơi (gamification) vào bài giảng, chẳng hạn như hệ thống điểm thưởng và bảng xếp hạng, có thể tăng cường sự hứng thú và động lực học tập của sinh viên.34
2.3. Nguyên lý hoạt động của AI và kỹ năng xây dựng yêu cầu (prompt)
Prompt Engineering là gì?
Tương tác với các mô hình AI tạo sinh, đặc biệt là LLMs, không chỉ đơn thuần là đặt câu hỏi. Prompt Engineering là nghệ thuật và khoa học của việc thiết kế các câu lệnh đầu vào (prompt) một cách cẩn thận để hướng dẫn mô hình tạo ra kết quả đầu ra chính xác, phù hợp và chất lượng cao. Đây thực chất là kỹ năng giao tiếp hiệu quả với AI, biến người dùng từ một người hỏi thụ động thành một người chỉ đạo chủ động.
Các kỹ thuật Prompt cơ bản
- Zero-shot Prompting:
- Few-shot Prompting (Học trong ngữ cảnh - In-context Learning):
- Chain-of-Thought (CoT) Prompting (Chuỗi tư duy):
Bảng 4: So sánh các kỹ thuật Prompt Engineering cơ bản
Bảng này cung cấp một hướng dẫn nhanh giúp sinh viên lựa chọn kỹ thuật phù hợp cho từng nhiệm vụ cụ thể, nâng cao hiệu quả tương tác với AI.
2.4. Quy trình và phương thức tương tác với các công cụ trí tuệ nhân tạo
Để khai thác tối đa sức mạnh của AI, sinh viên nên tuân theo một quy trình tương tác có hệ thống:
- Xác định Mục tiêu Rõ ràng: Trước khi viết prompt, hãy tự hỏi: "Kết quả cuối cùng tôi muốn đạt được là gì?" (Ví dụ: một dàn ý, một đoạn mã, một danh sách ý tưởng).
- Cung cấp Bối cảnh (Context): AI không biết những gì bạn biết. Cung cấp thông tin nền cần thiết để mô hình hiểu được tình huống. Ví dụ, thay vì hỏi Viết một email, hãy cung cấp: Tôi là sinh viên năm hai, viết một email cho giáo sư để xin gia hạn nộp bài tiểu luận môn do bị ốm.
- Đưa ra Hướng dẫn Cụ thể (Instruction): Sử dụng các động từ mệnh lệnh rõ ràng (Phân tích, So sánh, Lên danh sách, Viết, Tạo...). Chỉ định rõ vai trò cho AI (ví dụ: Hãy đóng vai một nhà tư vấn marketing...).
- Chỉ định Định dạng Đầu ra (Output Format): Nếu bạn cần kết quả theo một cấu trúc cụ thể, hãy yêu cầu nó. Ví dụ: ...trình bày kết quả dưới dạng một bảng có 3 cột: Ưu điểm, Nhược điểm, và Ví dụ.
- Lặp lại và Tinh chỉnh (Iterate and Refine): Kết quả đầu tiên hiếm khi hoàn hảo. Hãy xem nó như một bản nháp. Dựa trên câu trả lời của AI, hãy đặt các câu hỏi tiếp theo để làm rõ, yêu cầu mở rộng một điểm cụ thể, hoặc sửa đổi prompt ban đầu để có kết quả tốt hơn. Tương tác với AI là một cuộc đối thoại, không phải là một giao dịch một lần.
2.5. Thực hành với các công cụ trí tuệ nhân tạo
Phần này tập trung vào việc áp dụng các kỹ thuật đã học vào các tình huống học tập thực tế.
- Bài tập thực hành về học ngoại ngữ:
- Bài tập thực hành về làm tiểu luận:
- Bài tập thực hành cho dự án nhóm:
