Nội dung text C5. Bài 1. Thu thập và phân loại dữ liệu.pdf
BÀI 1. THU THẬP VÀ PHÂN LOẠI DỮ LIỆU I. TÓM TẮT LÝ THUYẾT 1. Dữ liệu bao gồm dữ liệu là số (số liệu) và dữ liệu không là số. Dữ liệu là số còn được gọi là dữ liệu định lượng. Dữ liệu không là số còn được gọi là dữ liệu định tính. 2. Dữ liệu không là số có thể phân thành hai loại, loại không thể sắp thứ tự (chẳng hạn dữ liệu về sở thích môn học: Toán, Văn, Lịch sử,...) và loại có thể sắp thứ tự (chẳng hạn dữ liệu đánh giá chất lượng một dịch vụ nào đó có các mức Kém, Trung bình, Tốt, Rất tốt). 3. Để có thể đưa ra các kết luận hợp lí, dữ liệu thu được phải đảm bảo tính đại diện cho toàn bộ đối tượng đang được quan tâm. 4. Có nhiều phương pháp thu thập dữ liệu, mỗi phương pháp có những ưu điểm, nhược điểm, phù hợp với từng hoàn cảnh cụ thể. Các phương pháp thu thập dữ liệu phổ biến là: Quan sát, lập phiếu hỏi/ khảo sát ý kiến, làm thí nghiệm, hay thu thập từ những nguồn có sẵn như sách báo, internet, truyền hình,... Để thu thập một dữ liệu nào đó, người ta có thể dùng một hay nhiều phương pháp thu thập dữ liệu, phù hợp với đối tượng tiến hành thu thập dữ liệu. 5. Hiện nay, để thu thập dữ liệu thuận tiện hơn, người ta sử dụng các ứng dụng phần mềm để tạo bộ câu hỏi (phiếu khảo sát) và thu thập dữ liệu trên môi trường trực tuyến. Người được khảo sát cũng dễ dàng cung cấp thông tin bằng cách truy cập một đường link hay quét một mã QR code được gửi từ người khảo sát. Các ứng dụng phần mềm này có thể tổng hợp kết quả ngay lập tức sau khi người được khảo sát cung cấp câu trả lời, rất dễ dàng và tiện dụng. Một số ứng dụng thường được sử dụng như Google Forms (Biểu mẫu), Microsoft Office Form, Survey Monkey, Slido, Mentimeter,... II. BÀI TẬP VÀ CÁC DẠNG TOÁN Dạng 1. Phân loại dữ liệu Phương pháp giải: Để phân loại dữ liệu, ta kiểm tra xem dữ liệu nào có thể cân, đong, đo, đếm, xác định, tính toán,... được và được thể hiện bằng các giá trị số thì được gọi là số liệu hay dữ liệu định lượng. Dữ liệu không là số liệu thì là dữ liệu định tính. 1A. Với mỗi câu hỏi hay yêu cầu sau, hãy xác định xem dữ liệu thu được thuộc loại nào. a) Bạn thích làm công việc gì trong tương lai? b) Liệt kê 5 người có ảnh hưởng đến bạn từ nhỏ đến giờ. c) Chỉ số BMI của bạn là bao nhiêu? (Chỉ số khối cơ thể BMI là phép đo trọng lượng của một người tương ứng với chiều cao của người đó. Chỉ số BMI có thể cho thấy bạn đang có mức cân nặng bình thường so với chiều cao hay thừa cân, thiếu cân hay suy dinh dưỡng).
(Theo https://hellobacsi.com/) d) Liệt kê 3 môn học đạt điểm cao nhất của mỗi học sinh lớp 7A. e) Liệt kê điểm trung bình của 3 môn học cao nhất của mỗi học sinh lớp 7A. f) Cảng hàng không quốc tế Nội Bài vừa đưa vào thử nghiệm hệ thống nhận thông tin phản hồi điện tử (eSmile) tại Nhà ga T2 để tiếp nhận nhanh mọi ý kiến phản hồi của hành khách về mức độ hài lòng chất lượng dịch vụ. Dữ liệu thu được thuộc loại nào? (Theo vietnamairlines.com) 1B. Với mỗi câu hỏi hay yêu cầu sau, hãy xác định xem dữ liệu thu được thuộc loại nào. a) Bạn thích ăn món gì nhất? b) Liệt kê 5 cuốn sách bạn thích nhất. c) Chỉ số IQ của bạn là bao nhiêu? (IQ - Intelligence Quotient - là chỉ số thông minh của não bộ con người, chỉ số IQ cao đồng nghĩa với việc người đó sẽ có những tư duy và phản xạ nhanh nhạy hơn. Chỉ số IQ được thể hiện qua điểm số của các bài kiểm tra IQ tiêu chuẩn). (Theo https://meta.vn/) d) Tên của 3 vận động viên đạt thành thành tích cao nhất trong cuộc thi chạy 100m. e) Thời gian chạy của 3 vận động viên đạt thành thành tích cao nhất trong cuộc thi chạy 100 m. f) Đánh giá kết quả học tập của học sinh từng kì và cả năm học theo 4 mức độ. (Thông tư 22/2021/TT-BGDĐT quy định về đánh giá học sinh THCS-THPT, theo đó kết quả học tập của học sinh từng kì và cả năm học được đánh giá theo 4 mức gồm: Tốt, Khá, Đạt, Chưa đạt). (Theo https://moet.gov.vn/) Dạng 2. Xác định cách thu thập dữ liệu phù hợp Phương pháp giải: Để xác định được cách thu thập dữ liệu phù hợp ta thường dựa vào đối tượng thu thập dữ liệu và loại
thông tin thu thập. Nếu đối tượng thu thập dữ liệu không phải là người thì nên dùng phương pháp quan sát hoặc làm thí nghiệm để thu thập dữ liệu. Nếu đối tượng thu thập dữ liệu là người và thông tin thu thập liên quan đến các ý kiến cá nhân, quan điểm mỗi người thì dùng phương pháp khảo sát (lập phiếu hỏi) để thu thập dữ liệu. Nếu đối tượng thu thập là người nhưng thông tin thu thập liên quan đến các hoạt động, hành vi,... thì cũng có thể dùng phương pháp quan sát để thu thập dữ liệu. Nếu dữ liệu là kiến thức phổ biến hay thông tin khoa học thì có thể thu thập bằng phương pháp tìm kiếm qua các tài liệu trên sách, báo, truyền hình, internet. 2A. Với mỗi loại thông tin sau, chỉ ra cách thức thu thập phù hợp: a) Chiều cao của các bạn học sinh cùng lớp em. b) Thời gian bay hơi của một số loại cồn có các nồng độ khác nhau. c) Top 10 nước có diện tích lớn nhất thế giới. d) Số lần xuất hiện mặt ngửa khi tung đồng xu 10 lần e) Số con vật nuôi của các bạn trong tổ em. f) Số lượt xe qua lại tại một ngã tư gần trường em. 2B. Với mỗi loại thông tin sau, chỉ ra cách thức thu thập phù hợp a) Cân nặng của các bạn học sinh cùng lớp em. b) Số bạn thân của mỗi học sinh trong lớp em. c) Top 10 bộ phim Việt có doanh thu cao nhất. d) Số lần xuất hiện mặt ngửa khi tung đồng xu 10 lần e) Số ngày nắng trong tháng 12/2021. f) Số lần vượt đèn đỏ giao thông. Dạng 3. Xác định tính đại diện của dữ liệu Phương pháp giải: Để xác định xem dữ liệu thu được có đảm bảo đại diện cho toàn bộ đối tượng đang được quan tâm hay không, chúng ta cần xem xét đối tượng khảo sát để thu thập dữ liệu ấy có được lấy ngẫu nhiên từ toàn bộ đối tượng được quan tâm hay không. - Nếu đối tượng khảo sát được lấy ngẫu nhiên từ toàn bộ đối tượng quan tâm thì dữ liệu thu được là đảm bảo tính đại diện. - Nếu đối tượng khảo sát không được lấy ngẫu nhiên từ toàn bộ đối tượng quan tâm hay chỉ lấy ở một tập hợp con của tập hợp các đối tượng quan tâm thì dữ liệu không đảm bảo tính đại diện.
3A. Một nhóm nghiên cứu khảo sát ý kiến học sinh tại một trường THCS ở khu vực nội thành Hà Nội về tình trạng bạo lực học đường, số liệu cho thấy một phần ba số người được hỏi cho biết là đã từng là nạn nhân bị bắt nạt trên mạng. Nhóm đưa ra kết luận: "Tỉ lệ học sinh THCS ở Hà Nội bị bắt nạt trên mạng là khoảng 33% ". Kết luận này có hợp lý không? Tại sao? 3B. Khỉ cú ba sọc là một loài khỉ đêm thuộc động vật có vú trong họ Aotidae, bộ Linh trưởng. Chúng là loài động vật linh trưởng cỡ nhỏ ở châu Mỹ. Sau khi nghiên cứu thời gian ngủ của khỉ cú, người ta biết rằng khỉ cú ngủ là khoảng 17 giờ/ngày. Nếu đưa ra kết luận: "Loài khỉ ngủ trung bình 17 giờ/ngày" thì có hợp lí không? Tại sao? (Theo https://kienthuc.net.on/) 4A. Ngày 06/11/2021, dự án đường sắt đô thị Hà Nội, tuyến Cát Linh Hà Đông chính thức vận hành thương mại. Sau 10 năm khởi công, tuyến đường sắt đô thị đầu tiên của Thủ đô và cả nước đã hoàn thành, bắt đầu phục vụ nhu cầu đi lại của người dân, mở ra loại hình vận tải công cộng mới. Tuyến đường sắt này có 13 đoàn tàu, mỗi đoàn tàu gồm 4 toa, mỗi toa chở được 240 hành khách, mỗi chuyến chở được 960 hành khách. Về tần suất, đoàn tàu Cát Linh Hà Đông có biểu đồ hoạt động giờ cao điểm 6 phút/chuyến, bình quân có 10 chuyến/giờ/hướng.