3,5 triệu cuốn sách máy đã đọc nói lên điều gì về phụ nữ và nam giới

08/10/2019
Các nhà nghiên cứu đã rà soát một khối lượng sách rất lớn để tìm xem những tính từ được dùng để mô tả phụ nữ và nam giới trong văn học có khác nhau hay không. Họ đã sử dụng một mô hình máy tính mới để phân tích dữ liệu của 3,5 triệu cuốn sách cả hư cấu lẫn thực tiễn được xuất bản bằng tiếng Anh từ năm 1900 đến năm 2008.

Học máy đã phân tích 3,5 triệu cuốn sách và đã tìm ra các tính từ gắn với phụ nữ có xu hướng mô tả ngoại hình, trong khi các tính từ gắn với nam giới lại thường liên quan đến hành vi.

“Xinh đẹp” và “gợi cảm” là hai tính từ được sử dụng nhiều nhất để miêu tả phụ nữ. Các tính từ mô tả thường dùng cho nam giới là “chính nghĩa”, “lý trí” và “can đảm”.

 

Nữ

Nam

Tích cực

Tiêu cực

Tích cực

Tiêu cực

Xinh đẹp

Bị hành hạ

Công bằng

Không phù hợp

Đáng yêu

Thiếu giáo dục

Tráng kiện

Không đáng tin cậy

Trinh bạch

Khô cằn

Ngay thẳng

Lộn xộn, vô tổ chức

Tuyệt mỹ

Đanh đá

Lý trí

Dính như hình với bóng

Phúc hậu

Được bao bọc

Trầm tĩnh

Vũ phu

Mỹ miều

Đau khổ

To lớn

Lười nhác

Gợi cảm

Độc thân

Dũng cảm

Không khí giới

Sành điệu

Suy dinh dưỡng

Nắm quyền tối cao

Bị thương/tổn thương

Thanh tú

Thiếu cân

Đáng tin cậy

Mù quáng

Lanh lợi

Nhẫn nhục

Vô tội

Không công bằng

Sôi nổi

Cằn nhằn

Chính trực

Độc ác

Cơ thể

Cảm giác

Khác

Hành vi

Không gian

Tâm tính

Bản chất

Số lượng

Xã hội

“Chúng ta có thể thấy rõ ràng là các từ ngữ dành cho phụ nữ đề cập nhiều hơn hẳn đến ngoại hình của họ hơn là những từ dùng để mô tả nam giới. Nghiên cứu đã khẳng định một quan niệm rất phổ biến trên cơ sở dựa vào các con số thống kê”, Trợ lý giáo sư Isabelle Augenstein thuộc Khoa Khoa học máy tính của Đại học Copenhagen cho biết.

Các nhà nghiên cứu cũng phân tích các tính từ và động từ gắn với các danh từ thể hiện giới cụ thể (từ “daughter” – con gái và “stewardess” – nữ tiếp viên). Ví dụtrong những cụm từ như “Nữ tiếp viên gợi cảm” hay “chuyện đồn thổi của bọn con gái”. Sau đó họ phân tích xem các từ này có tình cảm mang tính tích cực, tiêu cực hay trung tính, sau đó lại phân loại các từ theo các tiêu chí ngữ nghĩa (semantic category) thành các nhóm như “hành vi”, “cơ thể”, “cảm giác” và “suy nghĩ”.

Trước đây, các nhà ngôn ngữ học thường nghiên cứu về vấn đề ngôn ngữ định kiến giới nhưng thường trên khối dữ liệu nhỏ hơn. Giờ đây, các nhà khoa học máy tính có thể sử dụng các thuật toán học máy để phân tích các kho dữ liệu khổng lồ và trong nghiên cứu này là11 tỷ từ. Qua phân tích, các nhà khoa học chứng minh rằng các động từ mang tính tiêu cực liên quan đến cơ thể và ngoại hình của phụ nữ xuất hiện nhiều gấp năm lần so với nam giới. Phân tích cũng cho thấy các tính từ tích cực và trung tính liên quan đến cơ thể và ngoại hình xuất hiện ở các mô tả phụ nữ gần gấp đôi so với mô tả nam giới và các tính từ mô tả nam thường liên quan đến hành vi và phẩm chất cá nhân của họ.

Giáo sư Augenstein cũng chỉ ra rằng mặc dù nhiều cuốn sách đã được xuất bản vài thập kỷ trước nhưng chúng vẫn đóng vai trò tích cực. Các thuật toán được sử dụng để tạo ra các thiết bị và ứng dụng có thể hiểu ngôn ngữ con người được nạp dữ liệu dưới dạng tài liệu văn bản sẵn có trực tuyến. Đây là công nghệ cho phép điện thoại thông minh nhận dạng giọng và cho phép Google đề xuất các từ ​​khóa.

Tại sao tính từ quan trọng đến vậy?

“Các thuật toán hoạt động để xác định các mô hình và khi nào mô hình đó được nhận diện, máy sẽ ghi nhận điều đó là “thực tế”. Nếu bất kỳ mô hình nào thể hiện ngôn ngữ có tính định kiến thì kết quả cũng bị định kiến. có thể nói, hệ thống chấp nhận những ngôn ngữ mà con người sử dụng, nghĩa là những ngôn ngữ mang tính định kiến và khuôn mẫu giới” – Giáo sư Augenstein cho biết. Bà đưa ra ví dụ cho thấy tầm quan trọng của các tính từ: “nếu một công ty sử dụng hệ thống công nghệ tin học để phân loại các đơn xin việc thì nếu sử dụng ngôn ngữ khác nhau để mô tả nam giới và phụ nữ thì bản đề xuất chọn nhân viên sẽ ảnh hưởng đến việc nhân viên đó có được tuyển dụng hay không”

Khi trí tuệ nhân tạo và công nghệ ngôn ngữ trở nên phổ biến trong xã hội thì chúng ta rất cần ý thức được là ngôn ngữ mang tính giới rõ rệt.

Augenstein chia sẻ “Khi phát triển các mô hình học máy, chúng ta cần để ý đến vấn đề này bằng cách sử dụng các ngôn ngữ ít định kiếnhoặc buộc mô hình phải bỏ qua hoặc chống lại các định kiến. Cả 3 giải pháp này đều có thể làm được”.

Các nhà nghiên cứu cũng cho biết phân tích trong nghiên cứu này cũng có hạn chế, đó là không tính đến việc ai là tác giả của các đoạn văn cụ thể, sự khác biệt về mức độ định kiến còn phụ thuộc vào việc sách được xuất bản trong giai đoạn đầu hay cuối của khoảng thời gian nghiên cứu. Hơn nữa, máy móc không phân biệt các thể loại khác nhau, ví dụ giữa tiểu thuyết lãng mạn và tiểu thuyết phi hư cấu. Các nhà nghiên cứu sẽ tiếp tục tìm hiểu thêm các vấn đề này.

Additional coauthors of the study are from the University of Maryland, Google Research Johns Hopkins University, the University of Massachusetts Amherst, and Microsoft Research.

They presented a paper on the at the 2019 Annual Meeting of the Association for Computational Linguistics.

Đây là công trình nghiên cứu có sự tham gia của các đồng tác giả đến từ Đại học Maryland, Đại học Google Research Johns Hopkins University, Đại học Massachusetts Amherst và Trung tâm nghiên cứu Microsoft. Các tác giả đã trình bày báo cáo tại Hội nghị thường niên của Hiệp hội Ngôn ngữ máy tính năm 2019.

Minh Hương dịch

TÂM ĐIỂM

CÁC ĐỀ ÁN

Video