Công cụ tìm kiếm thông tin mới
Công Nghệ Số Thế Giới Số

Google Dataset Search – Công cụ tìm kiếm thông tin mới của Google chuyên nghiên cứu dữ liệu

5 phút, 26 giây để đọc.

Từ lâu việc tìm kiếm nội dung, thông tin trên internet là một nghệ thuật đối với các đối tượng nghiên cứu. Đây là cổng thông tin. Cũng như một kho bách khoa số khổng lồ với các nguồn tài liệu nghiên cứu từ Google, Wikipedia, Discovery,.. Nơi mà bạn có thể tìm hiểu tất cả những bài nghiên cứu. Hoạt động liên quan đến chủ đề mà bạn thắc mắc.

Từ trước đến nay, một cách tiện lợi và dễ dàng sử dụng. Nắm bắt được nhu cầu tìm kiếm tài liệu và thông tin của đối tượng các nhà báo. Nhà khoa học, nhà nghiên cứu chuyên sâu. Google đã cho ra một công cụ giúp đỡ hỗ trợ việc tìm kiếm này. Công cụ này, được gọi là Google Dataset Search. Sẽ giúp các nhà nghiên cứu tìm thấy dữ liệu họ cần một cách dễ dàng hơn.

Bất kì ai cũng có thể dễ dàng tìm thấy thông tin họ cần một cách chuẩn xác. Và mang tính thống kê nhất. Google Dataset Search được ra mắt, với sự ủng hộ lớn của người dùng. Một cơ sở thông tin vững chắc cho nhóm nghiên cứu và nhà báo, cho bất cứ ai.

Giao diện thử nghiệm của Google Dataset Search

Google đã công bố một công cụ tìm kiếm để giúp các nhà nghiên cứu định vị và sử dụng dữ liệu trực tuyến sẵn có. Công ty đã ra mắt dịch vụ vào ngày 5 tháng 9. Và cho biết rằng dịch vụ này có thể hữu ích cho “các nhà khoa học, nhà báo dữ liệu. Chuyên viên dữ liệu, hoặc bất kỳ ai khác”.

Tìm kiếm tập dữ liệu (Dataset Search), hiện nay mới được đưa vào sử dụng cùng với các công cụ tìm kiếm. Chuyên dụng khác đã được sử dụng từ lâu của Google, chẳng hạn như tin tức và hình ảnh – cũng như Google Scholar và Google Books – tìm các tệp và cơ sở dữ liệu trên cơ sở cách chủ sở hữu phân loại chúng. Nó không đọc nội dung của các tập tin, theo cách mà các công cụ tìm kiếm làm đối với trang web.

Các cơ quan chính phủ, nhà xuất bản khoa học, các viện nghiên cứu. Và thậm chí cá nhân các nhà nghiên cứu duy trì. Hàng nghìn kho dữ liệu mở trên thế giới, chứa hàng triệu bộ dữ liệu. Nhưng khi các nhà nghiên cứu muốn biết những loại dữ liệu nào có sẵn. Hoặc mong muốn tìm được dữ liệu mà họ đã biết, thường phải dựa vào thông tin “truyền miệng”. Theo Natasha Noy, nhà khoa học máy tính tại Google AI ở Mountain View, California.

công cụ Google Dataset Search

Tìm kiếm phân loại

Noy và Dan Brickley, đồng nghiệp tại Google, lần đầu tiên mô tả một chiến lược. Để giải quyết vấn đề đó trong một bài viết của họ đăng trên blog vào tháng 1 năm 2017.

Các công cụ tìm kiếm điển hình hoạt động theo hai giai đoạn chính. Đầu tiên là lập chỉ mục các trang có sẵn bằng cách liên tục rà soát Internet. Thứ hai là xếp hạng các trang được lập chỉ mục đó, để khi người dùng nhập cụm từ tìm kiếm. công cụ có thể cung cấp kết quả theo thứ tự mức độ liên quan.

Để hỗ trợ các công cụ tìm kiếm trong việc lập chỉ mục các bộ dữ liệu hiện có, theo Noy và Brickley. Những người sở hữu các bộ dữ liệu nên ‘gắn thẻ’ (tag) chúng, sử dụng kho từ vựng đã được tiêu chuẩn hóa. Gọi là Schema.org – một sáng kiến được thành lập. Bởi Google và ba công cụ tìm kiếm khổng lồ khác (Microsoft, Yahoo và Yandex) và Brickley quản lý. Nhóm Google cũng đã phát triển một thuật toán đặc biệt để xếp hạng các bộ dữ liệu trong kết quả tìm kiếm.

“Vào tháng 11, tất cả các trường đại học chúng tôi đang làm việc cùng đều đang ‘đánh dấu’ các dữ liệu của họ,” Hahnel nói. “Tôi nghĩ rằng đây là một bước ngoặt cho dữ liệu mở trong cộng đồng học thuật.”

Các cơ quan tài trợ đôi khi yêu cầu rằng dữ liệu trong nghiên cứu phải được cung cấp mở. Mục tiêu cuối cùng của việc này chỉ có ý nghĩa khi thông tin có thể được “tìm và truy cập một cách hiệu quả”, ông nói.

Giá trị công cụ tìm kiếm mới này mang lại

Các tổ chức đã sớm ủng hộ thử nghiệm của Google là Cơ quan Khí quyển và Đại dương Quốc gia Hoa Kỳ (NOAA). Cơ quan này có nhiệm vụ nghiên cứu từ thủy sản đến vành nhật hoa của Mặt trời. Các kho lưu trữ của nó chứa gần 70.000 bộ dữ liệu – bao gồm cả nhật ký tàu bè từ những năm 1800. “Kho báu” này lên đến hơn 35 petabyte, tương đương với nội dung của 35.000 ổ đĩa cứng.

Công cụ của Google sẽ giúp NOAA đáp ứng nhiệm vụ mở dữ liệu của mình. Giám đốc dữ liệu của NOAA Edward Kearns ở Asheville, North Carolina cho biết. Kearns nói thêm. “Chúng tôi muốn tìm kiếm những cách thức mới để làm cho những dữ liệu đó sẵn sàng để dùng cho mọi người”.

Google Dataset Search

Để tìm kiếm tập dữ liệu hoạt động, sự hợp tác của chủ sở hữu dữ liệu là một yếu tố rất quan trọng. Mặc dù hệ thống có thể trở nên tinh vi hơn trong tương lai. Google hiện không có kế hoạch thực sự đọc dữ liệu hoặc phân tích chúng. Cũng như với các trang web hoặc hình ảnh. “Một công cụ tìm kiếm như thế này chỉ có ý nghĩa nếu siêu dữ liệu. Được các nhà xuất bản dữ liệu cung cấp”, Noy nói.

Kết luận

Giống như Google Scholar, Tìm kiếm dữ liệu hiện không cung cấp quyền truy cập. Cho truy vấn tự động hoặc giao diện. Lập trình ứng dụng (API) – mặc dù công ty cho biết rằng nó có thể thêm chức năng đó trong tương lai. Khi công cụ Tìm kiếm tập dữ liệu phát triển. Nó cũng có thể được tích hợp với Google Scholar. Để kết quả tìm kiếm trên một nghiên cứu cụ thể có thể liên kết đến các tập dữ liệu có liên quan.

Nguồn: khoahocphattrien.vn

 

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *