Bạn có biết gần một nửa lưu lượng truy cập internet không phải là con người? Vào năm 2021, 47,4% lưu lượng truy cập internet đến từ các bot tự động và đã tăng 5,1% so với năm trước.
Một trong những vấn đề nhức nhối hiện nay là sự trỗi dậy của rất nhiều dữ liệu rác. Để bảo vệ website của mình, các webmaster phải triển khai rất nhiều công cụ khác nhau để ngăn ngừa và chống lại các dữ liệu rác như: spam email, đăng ký hàng nghìn thậm chí hành chục nghìn tài khoản, ngăn ngừa các cuộc Dictionary Attack hay Brute Force Attack. Nhìn chung thì việc này ngoài việc gây ra những phiền toái đáng kể cho người quản trị website, nó còn khiến cho dữ liệu của bạn không còn được an toàn.
Trong số những công cụ giúp ngăn ngừa những cuộc tấn công hoặc phá hoại như vậy, Google ReCAPTCHA được xem như một người hùng thầm lặng đứng sau giúp đỡ cho website bạn rất nhiều và đóng vai trò như một tấm khiên lớn, chắc chắn đang được tin dùng trên toàn cầu.
Trong bài viết này, mình sẽ chia sẻ về cách Google reCaptcha bảo vệ bạn trước những hiểm họa liên quan đến tin nhắn rác.
Phụ mục
Google reCaptcha là gì ?
Những ai đã từng tiếp cận với mạng máy tính, đã từng đăng ký tài khoản online chắc có lẽ đã từng ít nhất vài lần tiếp xúc với reCaptcha rồi! Những thử thách khó chịu mà bạn phải trải qua trước khi vào một trang web hoặc trang dịch vụ trực tuyến để chứng minh mình là người chứ không phải một máy tính tự động.
Google ReCAPTCHA là công nghệ tự động do Google phát triển để phân biệt bot với con người. Công nghệ này được thiết kế để ngăn chặn thư rác, lạm dụng và các cuộc tấn công độc hại, đồng thời bảo vệ các trang web và trang trực tuyến.
ReCAPTCHA thường là một cửa sổ bật lên đi kèm với các thử thách hoặc bài kiểm tra khác nhau để chứng minh rằng bạn là người. Các bài kiểm tra này thường bao gồm giải câu đố, xác định đối tượng hoặc xác minh thông tin cụ thể.
Sau khi hoàn thành bài kiểm tra thành công, bạn sẽ chứng minh được danh tính con người của mình và được quyền truy cập vào trang web.
CAPTCHA và ReCAPTCHA
Nhìn chung giữa CAPTCHA và ReCAPTCHA có những điểm tương đồng từ tên gọi đến tính năng – cả 2 đều nhằm mục đích giúp phân biệt được giữa con người bình thường và bot truy cập vào website. Tuy nhiên, chức năng của chúng ẩn chứa một số điểm khác biệt.
Phép thử Turing
Phép thử Turing là một bài kiểm tra khả năng trí tuệ của máy tính. Phép thử như sau: một người chơi thực hiện một cuộc thảo luận bằng ngôn ngữ tự nhiên với một con người và một máy tính, cả hai đều cố gắng chứng tỏ mình là con người. Ba bên tham gia phép thử được cách ly với nhau. Nếu người chơi không thể nhận ra máy tính không phải là con người, máy tính đó vượt qua phép thử. Vì bài kiểm tra có mục đích là thử khả năng trí tuệ của máy tính mà không phải là khả năng nghe âm thanh, cuộc thảo luận hạn chế trong một kênh văn bản như một bàn phím và màn hình. – Nguồn Wiki
Một số trang web vẫn sử dụng CAPTCHA cổ điển để xác minh danh tính người dùng bằng cách yêu cầu họ xác định các chữ cái. Chủ yếu là các chữ cái bị bóp méo, thường chứa một chuỗi ký tự chữ và số, và người dùng được yêu cầu phải nhận dạng chúng, điều này rất khó đối với bot.
Để vượt qua bài kiểm tra, bạn phải dịch các chữ cái bị bóp méo thành đúng cấu trúc và gửi nó lại.
Ý tưởng đằng sau thuật toán này là các chương trình tự động của máy tính không thể đọc được và diễn giải lại các chữ cái bị méo mó hay biến dạng. Điều tốt nhất mà các chương trình có thể làm là nhập ngẫu nhiên một vài ký tự hoặc so sánh khớp hình ảnh với một chữ cái nào đó để tìm cách vượt qua bài test này.
Và như bạn đã từng nhập Captcha: chỉ có con người mới có thể diễn giải và hiểu được ý nghĩa thực sự đằng sau những chữ cái bị biến dạng đó và nhập đúng. Do đó, con người có thể vượt qua bài kiểm tra này và tiếp tục hành trình của mình trên website.
Đây là phép thử Turing trong truyền thuyết !!!
Nhưng với thời gian, các thuật toán tiên tiến mới và công nghệ AI ra đời; bot hiện nay đã tiến hóa và có thể đọc được các chữ cái và ký tự méo mó. Bởi vì lý do này, Google cho ra mắt reCaptcha thay thế cho Captcha trước đây.
ReCAPTCHA
Công nghệ cơ bản đằng sau ReCAPTCHA dựa trên các thuật toán phân tích rủi ro tiên tiến và hệ thống máy học.
Thay vì các chữ cái bị bóp méo, reCaptcha giới thiệu các dạng thử thách khác. Đôi khi bạn phải giải một câu đố, đôi khi bạn cần xác định các vật thể tương tự và đôi khi chỉ cần nhấp vào hộp kiểm.
Bạn đã bao giờ nhấp vào ô Tôi không phải là người máy hoặc kiểm tra hình ảnh có vạch qua đường hoặc đèn giao thông chỉ để xác minh danh tính người của mình chưa?
Chắc chắn bạn đã trải nghiệm điều đó trước đây rồi. Các bot tự động gặp khó khăn khi giải mã điều này. Đây là cách Google ReCAPTCHA hoạt động để bảo vệ các trang web khỏi các hoạt động độc hại.
Tại sao bạn cần Google reCaptcha
Tốc độ phát triển của xã hội, công nghệ kéo theo nhiều nền tảng mới ra đời. Càng nhiều công nghệ, càng nhiều thông tin thì đó càng là mỏ vàng cho những người lừa đảo và gửi tin rác mò tới. Chắc bạn không lạ gì với tình trạng một “chuyên gia mạketing nào đó” có tới vài trăm nghìn tài khoản Facebook hay những đơt buff mắt xem Tiktok lên đến hàng chục nghìn mắt xem chứ ?
Va sau đây là những điều bạn sẽ gặp phải nếu không có một tấm khiên như Google reCaptcha:
- Bọn spam sẽ thao túng nội dung trên website bạn,
- Comment dạo tràn lan và khó kiểm soát với số lượng hàng trăm nghìn mỗi ngày.
- Email liên hệ và các form liên hệ tràn ngập thông tin và link spam.
- Tạo ra hàng nghìn, hàng chục nghìn, hàng trăm nghìn tài khoản để phát tán phần mềm độc hại hoặc thao túng thông tin, điều hướng dư luận, dắt mũi user…
- Thao túng SEO.
- Truy cập vào thông itn nhạy cảm của ngời dùng bằng một lỗ hồng nào đó từ 1 user khác.
- …..
Để giảm thiểu rủi ro này, hiện nay hầu hết các trang web đều được bảo vệ bằng ReCAPTCHA để giảm lượng truy cập đáng ngờ và giảm thiểu hậu quả tiêu cực liên quan.
ReCAPTCHA V3 và V2 cái nào tốt hơn?
Nếu bạn đang tìm kiếm giải pháp bảo mật cho trang web của mình, thì bạn nên sử dụng ReCAPTCHA thay vì CAPTCHA. Trong bài viết trước, mình đã chia sẻ về 2 phương án tích hợp reCaptcha V3 và tích hợp reCaptcha V2 vào website.
Nhìn chung thì cả V2 và V3 đều cung cấp cho bạn một phương pháp bảo vệ website có sẵn và tự động nhằm giúp bạn loại trừ những hiểm họa đã nói ở trên.
Tuy nhiên sẽ có 1 câu hỏi nãy sinh là cái nào thì tốt hơn và phù hợp hơn cho bạn ? Phần sau đây của bài viết sẽ giúp bạn giải đáp thắc mắc này.
ReCAPTCHA V2
Có 3 phiên bản của reCaptchar V2 mà bạn cần lưu ý:
- Checkbox “I’m not a robot”
- Invisible ReCAPTCHA
- ReCAPTCHA Android
Checkbox “I’m not a robot”
Bạn phải đánh dấu vào hộp kiểm (checkbox) “I’m not a robot” để vượt qua thử thách của các trang web được bảo vệ bởi ReCAPTCHA V2. Sau khi nhấp vào hộp kiểm, đôi khi thuật toán phân tích rủi ro sẽ cho phép bạn vượt qua hoặc thử thách bạn bằng hình ảnh CAPTCHA.
Bạn phải nhớ rằng bạn phải nhấp vào hình ảnh có “vòi cứu hỏa“, “đèn giao thông” hoặc “xe buýt” để được phép tương tác với trang web.
Tùy chọn này là phiên bản ReCAPTCHA dễ nhất và phổ biến nhất được hàng triệu trang web sử dụng.
ReCAPTCHA vô hình:
Đây là những gì bạn sẽ thấy khi ReCAPTCHA vô hình được sử dụng dưới bất kỳ hình thức nào. Không cần phải đánh dấu vào ô. Bằng cách theo dõi chuyển động của con trỏ, nó sẽ xác định bạn là bot hay con người.
Nó mang lại trải nghiệm người dùng tốt hơn nhiều so với phiên bản đã nói ở trên Nó cải thiện tỷ lệ chuyển đổi khi gửi biểu mẫu đáng kể.Nhưng một nhược điểm là nó ít nghiêm ngặt hơn phiên bản hộp kiểm và vẫn có thể lọt qua một số thư rác.
ReCAPTCHA Android:
Với số lượng thiết bị di động ngày càng tăng, phiên bản Android của ReCAPTCHA đã được phát triển để bảo vệ chống lại thư rác và các hoạt động độc hại trên các ứng dụng Android.
Nếu dịch vụ nghi ngờ tương tác của người dùng với ứng dụng không tự nhiên và có thể là bot thay vì con người, thì ứng dụng sẽ hiển thị CAPTCHA mà người dùng phải giải quyết trước khi tiếp tục.
ReCAPTCHA V3
Không giống như V2, ReCAPTCHA V3 lúc nào cũng chạy ẩn. Bây giờ một câu hỏi có thể nảy sinh, ReCAPTCHA V3 hoạt động như thế nào? Nó có giống với ReCAPTCHA vô hình V2 không? Nó có hộp kiểm không?
Để tôi cho bạn biết rõ hơn về cách hoạt động của ReCAPTCHA v3. Nó xác định xem khách truy cập trang web có phải là bot hay không dựa trên điểm số. Đối với mỗi yêu cầu mà người dùng của bạn thực hiện trên trang web, ReCAPTCHA V3 sẽ chấm điểm từ 0 đến 1.
Nếu điểm gần bằng 0, thì có khả năng là bot. Nếu gần bằng 1, thì có khả năng là con người đang cố gắng tương tác.
Khi bạn khởi chạy một trang web, điều quan trọng là phải thiết lập ngưỡng chấm điểm để xác định cách ReCAPTCHA v3 hoạt động. Điều này có thể thực hiện được bằng cách xem xét lưu lượng truy cập trang web của bạn thông qua Google Administrator Console cho ReCAPTCHA.
Khi ReCAPTCHA cung cấp cho bạn điểm, bạn phải quyết định mình sẽ làm gì với điểm đó. Cho phép hay chặn người dùng có điểm cao hơn hay thấp hơn.
V3 luôn theo dõi mọi hành vi của người dùng tìm hiểu về họ bằng cách phân tích, quan sát và chấm điểm.
Trong khi ReCAPTCHA V2 theo dõi chuyển động của chuột trên trang biểu mẫu được tích hợp, V3 theo dõi chuyển động của con trỏ trên mọi trang. Kết quả là tốc độ chung của trang web bị ảnh hưởng bởi nó.
Mặt khác, ReCAPTCHA V2 làm người dùng cảm thấy khó chịu khi họ chuẩn bị đăng nhập, mua hàng hoặc đăng ký nhận bản tin.
Do đó, nó làm giảm tỷ lệ chuyển đổi so với V3.
Google ReCAPTCHA hoạt động như thế nào để bảo vệ dữ liệu?
Tất cả chúng ta đều quen thuộc với các thử thách ReCAPTCHA. Cho dù đó là thử thách hộp checkbox, nhận dạng hình ảnh hay thử thách âm thanh, chúng tôi đều đã đối mặt với chúng mà không có lựa chọn nào khác.
Một thử thách ReCAPTCHA V2 như Tôi không phải là người máy chỉ xuất hiện khi Google cho rằng tương tác là đáng ngờ. Sau đó, nó cung cấp để đánh dấu vào hộp kiểm. Đôi khi, nó cho phép khách truy cập tiếp tục hành trình của họ ngay sau khi đánh dấu vào hộp kiểm mà không cần thử thách nào cả.
Những lần khác, nó có thể thử thách bạn bằng nhiệm vụ nhận dạng hình ảnh hoặc nhận dạng âm thanh để xác định danh tính của bạn. Điều này hoàn toàn phụ thuộc vào mức độ tin tưởng của Google rằng bạn là con người.
Thử thách nhận dạng hình ảnh thường xuất hiện với hình ảnh có kích thước 9 hoặc 16 ô vuông. Hình ảnh có thể là một địa điểm cụ thể bao gồm nhiều đối tượng hoặc mỗi đối tượng có thể là một hình ảnh khác nhau.
Sau đó, bạn phải xác định hình ảnh với các vật thể nhất định, chẳng hạn như đèn giao thông, xe đạp, xe buýt, v.v.
Nếu câu trả lời của bạn trùng khớp với câu trả lời của phần lớn người dùng khác đã làm cùng bài kiểm tra thì câu trả lời của bạn được coi là “đúng” và bạn vượt qua bài kiểm tra.
Việc xác định một số vật thể từ những bức ảnh mờ là một công việc rất khó khăn đối với robot máy tính.
Do thiếu hình ảnh rõ nét, ngay cả Trí tuệ nhân tạo (AI) tiên tiến cũng gặp khó khăn trong việc nhận dạng chính xác các đối tượng trong những hình ảnh như vậy. Điều đó có nghĩa là các trang web cài đặt ReCAPTCHA có nhiều tương tác với con người hơn là bot.
ReCAPTCHA vô hình V3 và V2 bảo vệ dữ liệu bằng cách phân tích dữ liệu bộ nhớ đệm và chuyển động của con trỏ. Khi ai đó sắp nhấp vào hộp kiểm chắc chắn sẽ có một số chuyển động ngẫu nhiên.
Loại bot chuyển động vô thức nhỏ này không thể bắt chước được. ReCAPTCHA cũng bảo vệ các trang web bằng cách phân tích dữ liệu bộ nhớ đệm và hành vi lịch sử của khách truy cập.
ReCAPTCHA có thể đánh giá các cookie được lưu trữ bởi trình duyệt của người dùng và lịch sử duyệt web của thiết bị để phân biệt giữa bot tự động và tương tác thực sự của con người.
Mặc dù chính sách bảo mật của ReCAPTCHA không tuân thủ GDPR, nhưng để bảo mật dữ liệu, chủ sở hữu trang web vẫn dựa vào Google ReCAPTCHA.