Một chút thống kê về các bài báo CVPR16

2016/10/23

Hôm nay tình cờ thấy cái link liệt kê các bài được accept ở CVPR16, thế là mình ngồi thống kê vài cái cho vui

Đầu tiên là parse đống html này, sau đó dùng python load một dữ liệu lên, ta có được:

  1. Số bài báo được accept: 643 bài.
  2. Người có nhiều bài được đăng nhất: Ming-Hsuan Yang với tổng cộng 11 bài.
  3. Bài có chữ deep trong tiêu đề: 87 bài, chiếm 13.53% tổng số bài được accept.
  4. Bài có số tác giả nhiều nhất: Multimodal Spontaneous Emotion Corpus for Human Behavior Analysis với 13 tác giả đứng tên.
  5. Bài chỉ có 1 tác giả (một mình chống mafia):

cv-foundation còn hào phóng đính kèm trong source link download các paper, đồng thời có cả bibtex của các bài, nếu kết hợp với arxiv api thì có thể thống kê được nhiều thứ hay ho hơn nữa =))

Một số thống kê về tác giả.

Thử xem phân phối số lượng tác giả trên đầu bài của CVPR16 thế nào. Theo như kết quả, số bài ở CVPR16 trung bình có từ 2, 3 hoặc 4 tác giả đứng tên. Nhiều nhất là các bài có 3 tác giả (186 bài). Ngoại trừ gã outlier 13 tác giả thì biểu đồ đã gần giống với phân phối chuẩn rồi.

Biểu đồ phân bố số lượng tác giả trong một bài báo

1843 tác giả có bài trong CVPR16. Ngoài Ming-Hsuan Yang bá đạo ở trên, trong danh sách tác giả nhiều bài còn có những cái tên nổi bật như: Pascal Fua, Li Fei-Fei. Dưới đây là danh sách các tác giả có nhiều bài nhất trong CVPR16:

  1. Lei Zhang [scholar] [homepage]: 7 bài.
  2. In So Kweon [scholar] [homepage]: 7 bài.
  3. Antonio Torralba [scholar] [homepage]: 7 bài.
  4. Jiashi Feng [scholar] [homepage]: 7 bài.
  5. Wangmeng Zuo [scholar] [homepage]: 7 bài.
  6. Anton van den Hengel [scholar] [homepage]: 8 bài.
  7. Bernt Schiele [scholar] [homepage]: 8 bài.
  8. Luc Van Gool [scholar] [homepage]: 8 bài.
  9. Xiaogang Wang [scholar] [homepage]: 9 bài.
  10. Ming-Hsuan Yang [scholar] [homepage]: 11 bài.

Một điểm mình quan tâm nữa là mối quan hệ giữa các tác giả với nhau đó là lí do mình viết: một mình chống mafia ở đoạn trên. Ở đây mình dùng graph-tool để minh hoạ data đã thu thập được. Cách xây dựng đồ thị khá đơn giản: những tác giả đứng chung bài với nhau sẽ có cạnh nối với nhau.

Xưa kia nhà toán học Michael Gurevich đã từng thử điều này với các nhà toán học, và hiện nay bài toán Six degree of Seperation đã nổi tiếng và quan tâm nhiều.

Vision Gang

Nhìn hình ta có thể hình dung có 1 hội mafia cực lớn dây mơ rễ má với nhau. Và các team lẻ lẻ hơn thì bị nằm ngoài rìa, có 1 số team hoạt động khá độc lập (nằm giữa vùng trung tâm và vành đai). Đồng thời những chấm đỏ mỏng manh nằm ngoài vùng vành đai chính là các thánh một mình chống mafia, xin hoan nghênh các anh.

Chủ đề của CVPR16

Main topics

Ban đầu mình dự định sử dụng arvix-api để lấy keywords từ Bibtex tuy nhiên vì có cơ số bài hiện chưa có trên Arvix (mình sample 5 bài và cả 5 bài đều không được tìm thấy trên đó) nên không có cách để lấy chính xác keywords.

Có 2 cách tiếp cận:

  1. Dựa vào tiêu đề. Cách này sẽ nhanh hơn vì dữ liệu này đã có sẵn.
  2. Dựa vào nội dung. Cách làm tương đối đơn giản nhưng hơi mất thời gian: (1) download đống paper từ cv-foundation, (2) dùng pdf2text lưu text, (3) dùng 1 số thuật toán clustering để phân loại.

Cách thứ (2) tương đối dài hơi nên mình ưu tiên dùng cách thứ (1) trước. Một thuật toán để rút trích keywords khá nổi tiếng là RAKE. Dưới đây là kết quả.

    deep convolutional neural networks
    convolutional neural networks
    recurrent neural networks
    deep neural networks
    salient object detection
    convolutional networks
    sparse coding
    object detection
    image segmentation
    action recognition
    semantic segmentation
    optical flow
    shot learning
    unsupervised learning
    activity recognition
    set registration
    person re
    image
    pose
    detection
    video
    learning

Future Works

Hiện giờ minh đang tìm cách download toàn bộ pdf của bài năm nay để làm clustering và phân tích nội dung, đồng thời làm 1 tool search nho nhỏ. Ngoài ra hiện giờ mình đang tìm kiếm danh sách các bài các năm trước để có thêm 1 số phân tích hay ho hơn nữa (về trending, các bài được cite nhiều,).