これがベトナム大学院の実態だ!

Trường Đại Học Bách Khoa Thành Phố Hồ Chí Minhの大学院修士課程に社会人入学

Nhận dạng mẫu và học máy成績発表

去る1月26日、今期履修の選択科目であるNhận dạng mẫu và học máyの成績が発表された。
結果は10点満点中6.2点。
ミニプロジェクトおよびそのレポート、期末試験の準備(≒勉強)を考えるともう少し高い点数が狙えたとも思えるが。
とはいえ、4.9以下と5.0以上は雲泥の差。時間とお金を活かせるか、存するかの境目だ。
今回は無事合格でき安堵している。

Xử lý ngôn ngữ tự nhiên日程

Học kỳ 2/2018-2019の科目登録の結果、やりたかったHệ thống nhúngは人数不足により開講しなかったようだ。他の選択科目は選べるものの3科目習得すれば十分だ。
それよりも専門の必修4科目15単位のうちどれもHọc kỳ 2/2018-2019で開講していないのが不安である。
さて、今期の受講はXử lý ngôn ngữ tự nhiên(決まり字Xulyn)のみとなった。
昨年度受講しているためスケジュールが予測できる。

No 前回実績 今回予定 内容
1 04/03/2018 16/02/2019 2章途中
2 11/03/2018 23/02/2019 3章途中
3 18/03/2018 02/03/2019 3章完了
4 25/03/2018 09/03/2019 4章途中
5 01/04/2018 16/03/2019 5章途中
6 15/04/2018 23/03/2019 6章途中
7 22/04/2018 30/03/2019 7章途中
8 29/04/2018 06/04/2019 7章完了
9 06/05/2018 13/04/2019 中間試験、8章途中
10 13/05/2018 20/04/2019 9章途中
11 20/05/2018 27/04/2019 9章完了
12 27/05/2018 04/05/2019 10章途中
13 03/06/2018 11/05/2019 10章完了
14 10/06/2018 18/05/2019 11章完了
15 17/06/2018 25/05/2019 12章完了

ひとまず授業開始前に教科書を熟読し、内容についていけるようにしたい。

Phương pháp nghiên cứu khoa học nâng cao期末試験と見せかけて単なるレポート提出

実施日 2019/01/17(木)
時間 18:30だが18:15には担当者入室、指示開始

以前から良くわからなかった、試験日にレポート印刷してを持ってくるというもの。
このレポートは1か月も前にメールで提出しており、いまさら印刷して持ってくる意図は理解しがたい。
担当者が入室し、前の席の者から順に名簿に署名させ、レポートを回収していた。
署名と提出が終わった者から退出、帰ってよいというもの。

しかし120名いる学生にたいし、この狭い教室には数十名しか入れない。
遅く来た学生は廊下で待っている。
そこで退出した人数分入室するのだが、収拾がつかなくなっていた。
そこで、担当者は名簿の上から順に名前を呼び、呼ばれたものから順に前にでて署名、レポート提出、帰るというふうになった。

自分は18:30には署名と提出を終え、帰路についていたが、一番最後の学生が終わるのは夜遅くになったことであろう。
さらに、120名分のレポート冊子を持ち帰るのは至難の業だ。
よく年末ジャンボ宝くじの1等当選金の重さを体験しようみたいな展示があるが、それに勝るとも劣らない重さのはずだ。
そもそのこのレポートは12月中にemailで送っているのに、わざわざ手間と時間をかけて、こんな場所を取るやり方にしたのか謎。

Nhận dạng mẫu và học máy期末試験

実施日 2019/01/16(水)
時間 18:30だが18:15には問題配布開始
問題は以下の通り。
f:id:k4h8:20190118115734j:plain
f:id:k4h8:20190118115755j:plain
f:id:k4h8:20190118115805j:plain

なお、試験終了後にmini-projectを印刷したものを提出している者もいた。
これについては何も聞いていないため、担当の先生にメールを送った。

2/2018-2019の科目登録始まる

まだ今期の試験期間にも入っていないが、早くも次期の科目登録が始まった。
たまたま昨日サイトを見たら翌日から登録可能となっていたが、今日見たら昨日から開始したことになっている。一体どっちだ?
いずれにしても登録可能期間は4日間しかない。たまたまこの期間サイトをチェックしていなかったら一巻の終わり。なので数日に1回はサイトを見るようにしている。
さて、登録可能科目は以下の通り。
f:id:k4h8:20190108175136p:plainf:id:k4h8:20190108175146p:plain
やりたかったHệ thống nhúngが一覧にある。
同科目はここ数年開講されていなかったのでもう開講することはないと思っていたので意外だった。
また、Hệ hỗ trợ quyết địnhは経営に役立ちそうな内容である。
さらに前回惜しくも取得できなかったXử lý ngôn ngữ tự nhiênもある。
しかし選択科目は3科目単位取得、つまりあと1科目で十分なので、それ以上受講するのは金よりも時間と労力が惜しまれる。
とはいえ、Hệ thống nhúngでC言語を用いるかどうかで面白さは変わってくるので、ひとまず複数登録し、様子見で不要科目を取り消すか、あるいは保険の意味で複数科目を最終試験まで受講し続けるのも手であろう。

Phương pháp nghiên cứu khoa học nâng cao連絡事項

本科目はレポートのみで試験を実施しないはずだったが、思わぬ連絡が来た。
すでに電子送信したレポートを印刷して持って来いというような内容だ。

Wednesday, 26 December 2018
8:04 AM:
Các bạn nào có lịch thi thì sẽ làm thêm 1 bước: in ra bài tiểu luận (không in các file tài liệu tham khảo) và đến nộp vào đúng ngày thi (nhớ ký tên vào danh sách thi). Các bạn nào không được tôi nhận bài tiểu luận qua email (do quá deadline) thì không cần làm thêm bước này.
If students were scheduled to take an exam, please proceed as follows: 1) print your special topic (do not print reference files); 2) submit your printed paper to the exam supervisor on the exam date and remember to sign in the presence checklist.
Students whose special topic was not accepted through email (due to late submission) should not come to the exam room.

英語認定

本学入学選考時にTOIECの点数表を提出したが、ふと気が付くと2018年で有効期限が切れていた。
今のところ何の警告もないが、今年度開始時に英語の認定がどうとかいうemailが来ていたような気がする。
膨大なメールから探すのは骨の折れる作業だし、いずれにしてもTOEICは2016年以降受けていないので何らかの英語認定を受ける必要がある。
ベトナム国内限定の英検のようなVNU-EPTという試験が一番安いようだ。

VNU-EPT
650.000đ/ thí sinh/ lần thi
http://www.etcvnu.edu.vn/ky-thi-vnu-ept.aspx

BULATS Standard (Online- Reading &Listening): 720,000đ
BULATS Speaking (Online): 720,000đ
BULATS Writing (Online): 720,000đ
合計2,160,000đ
http://oea-vietnam.com/khao-thi-cambridge-english/lich-thi-dang-ky/#1454312098278-b96e319e-fe7e

TOEIC Listening and Reading: 900,000đ
TOEIC Speaking & Writing:1,870,000đ
合計2,770,000đ
IIGに電話

残念ながらTOEICは大幅に値上がりしてしまった。
日本でもTOEICの価値がこの数年で下がってしまったので、今後はVNU-EPT、日本での通用も見据えるならやBULATSだろうか。

Nhận dạng mẫu và học máy9~15回目

間が空てしまいめんどくさくなったのでまとめて。
9回目 2018年11月10日
10回目 2018年11月17日
2018年11月24日は台風で学校閉鎖
11回目 2018年12月1日
12回目 2018年12月8日
13,14回目 2018年12月15日
15回目 2018年12月22日
同日をもって授業完了。年明けに試験となる。
結局授業中にコンピュータを使うことはなく、全部数学だった。
また、mini projectと称して招集されるのか、レポート提出のみになるのか気になるところだ。

Phương pháp nghiên cứu khoa học nâng cao 6回目(最終回)

ブログの更新自体は1か月以内だが、授業内容としては2か月近く間が空いてしまった。
Phương pháp nghiên cứu khoa học nâng cao最終回となる6回目について。

2018年11月10日
結局その場での課題提出はなかったが、試験の代わりとなる60%レポートについての説明があった。
ただ、内容自体は後程ネットにアップされたので欠席しても問題なかった。
そして気になる60%レポートの内容は以下の通り。

Tiểu luận
1. Chọn 20 bài báo tạp chí/hội nghị có nội dung liên quan đến chuyên đề Nghiên cứu sinh hoặc hướng nghiên cứu của học viên.
2. Đọc 20 bài báo và thử đưa ra ý tưởng mới từ 20 bài báo này.
3. Dựa trên ý tưởng mới và 20 bài báo, hãy viết một số phần của một bài báo khoa học (định dạng bài báo sẽ do học viên tự download từ website của tạp chí chuyên ngành): Title, Abstract, Introduction, Results, Conclusions, References.
4. Nộp bài báo lên 1 tạp chí chuyên ngành (chọn tạp chí có hình thức nộp bài online). Sau khi nộp xong, download phiên bản đã nộp.

Vì học viên mới hình thành ý tưởng nghiên cứu nên phần kết quả của bài báo (Results) sẽ viết ngắn về các kết quả (dự kiến) cần có để ủng hộ ý tưởng. Tương tự, phần tóm tắt các kết quả trong Abstract và Introduction cũng viết ngắn tương tự.

Tài liệu nộp
1. File bài báo đã nộp lên tạp chí (download được sau khi nộp thành công lên tạp chí)
2. Các tài liệu tham khảo trong bài báo (zip thành 1 file)

この論文投稿というのがネックだが、実は掲載されることではなく、論文投稿サイトの下書きエリア的な場所に保存され、そこにあるPDFダウンロードボタンを押せばよい。

Nhận dạng mẫu và học máy 中間試験模範解答

同科目の模範解答が配布された。
仮に今期で単位が取れなくても来期でとれるので、確実に単位をあげに来ている科目とわかる。
内容は以下の通り。

Ñeà thi giöõa hoïc kyø I (2018)
Moân : Nhận dạng mẫu và Học Máy
Lớp Cao học
Thôøi gian: 70 phuùt
(Sinh viên được phép tham khảo tài liệu)

Đề thi gồm 2 trang

1. (1.25 điểm) Trả lời các câu hỏi sau đây, mỗi câu 0.25 điểm:
1.1 (Đúng/Sai) Giải thuật EM thuộc loại gom cụm mềm (soft clustering).
1.2 (Đúng/Sai) Giải thuật gom cụm k-Means thì phù hợp với dữ liệu rời rạc (categorical data) hơn là dữ liệu liên tục.
1.3 Giải thuật gom cụm EM thuộc loại giải thuật gom cụm nào sau đây
A. gom cụm phân cấp B. Gom cụm phân hoạch
C. Gom cụm dựa vào mô hình D. Gom cụm dựa vào mật độ
1.4 Luật phân lớp có thể được rút trích dễ dàng từ phương pháp phân lớp nào sau đây:
A. k-lân cận gần nhất B. Cây quyết định
C. Naïve Bayes D. các trường hợp trên đều sai
1.5 Phát biểu nào sau đây không đúng
A. Giải thuật k-Means có độ phức tạp gần như tuyến tính
B. Giải thuật gom cụm dựa vào mật độ có thể sinh ra các cụm có hình dạng bất kỳ
C. Giải thuật k-Means thích hợp với việc gom cụm thành những cụm có dạng hình cầu
D. Giải thuật gom cụm phân cấp tách có độ phức tạp tinh toán là hàm mũ.
E. Giải thuật gom cụm phân cấp gộp có độ phức tạp tinh toán là hàm mũ.
Ans
1.1 Đúng
1.2 Sai
1.3 C
1.4 B
1.5 E

2. (0.5 điểm) Cho một tập dữ liệu mẫu có số đặc trưng là n, khi tính ma trận hiệp phương sai cho tập dữ liệu, ta được một ma trận vuông bậc n mà các phần tử trên đường chéo chính khác 0, còn các phần tử còn lại đều bằng 0. Ma trận hiệp phương sai có tính chất như vậy nói lên điều gì về dữ liệu ?

Ans:
Ma trận hiệp phương sai như vậy cho thấy các thuộc tính của dữ liệu độc lập, không hề phụ thuộc vào nhau.

3. (0.75 điểm) Nêu sự khác biệt giữa lựa chọn đặc trưng (feature selection) và trích yếu đặc trưng (feature abstraction). PCA là phương pháp lựa chọn đặc trưng hay trích yếu đặc trưng ?

4. (0.75 điểm) Nêu sự khác biệt giữa lựa chọn prototype (prototype selection) và trích yếu prototype (prototype abstraction). Naïve Rank Reduction là phương pháp lựa chọn prototype hay trích yếu prototype ?

5. (0.75 điểm)
a. Cho các xác xuất: P(A|B) = 2/3, P(A|~B) = 1/3, P(B) = 1/3. Hãy tính xác xuất có điều kiện P(B|A).
Hint : Áp dụng công thức




b. Để có thể áp dụng bộ phân lớp Naive Bayes, chúng ta cần một giả định gì về tính chất dữ liệu.

Ans
a) Ta có : P(A) = P(A|B).P(B) + P(A|~B).P(~B)
= (2/3).(1/3) + (1/3).(2/3) = 4/9
P(B|A) = P(A|B).P(B)/P(A) = (1/3).(3/3)/(4/9) = ½

6. (1 điểm) Giải thích hai phương pháp kiểm tra chéo (cross-validation) sau đây: kiểm tra chéo k-phần (k-fold cross validation) và kiểm tra chéo bỏ ra một phần tử (leave-one-out cross validation).

7. (1 điểm)
Chúng ta dùng bộ phân lớp 5-lân cận gần nhất có trọng số (weighted 5-NN classifier) để phân lớp mẫu thử P. Giả sử khoảng cách giữa P với năm lân cận gần nhất (X1, X2, X3, X4 và X5) lần lượt là d1 = 1, d2 = 3, d3 = 4, d4 = 5 và d5 =8. Nếu X1, X2 thuộc lớp + và X3, X4 , X5 thuộc lớp -. Vậy P sẽ được phân vào lớp nào?
Ans
Vì khoảng cách nhỏ nhât là d1 = 1 và khoảng cách lớn nhất là d5 = 8, các trọng số ứng với các mẫu (X1, X2, X3, X4 và X5) như sau:
wi = (d5-di)/(d5-d1) = (8-di)/(8-1) = (8-di)/7
w1 = (8-1)/7 = 1, w2 = (8-3)/7 = 5/7, w3 = (8-4)/7 = 4/7, w4 = (8-5)/7 = 3/7, w5 = (8-8)/7 = 0
+ = w1 + w2 = 1 + 5/7 và - = w3 + w4 + w5 = 4/7 + 3/7 + 0
Vì + > - nên mẫu thử thuộc về lớp +.

8. (1.5 điểm)
Cho tập mẫu thuộc hai lớp 1 và 2 sau đây:
(1, 1, 1), (1, 2, 1), (1, 3, 1), (2, 1, 1), (2, 2, 1), (2, 3, 1), (2, 3.5, 1),
(2.5, 2, 1), (3.5, 1, 1), (3.5, 2, 1), (3.5, 3, 2), (3.5, 4, 2), (4.5, 1, 2)
(4.5, 2, 2), (4.5, 3, 2), (5, 4, 2), (5, 5, 2), (6, 3, 2), (6, 4, 2), (6, 5, 2)
trong đó mỗi mẫu được biểu diễn bằng thuộc tính 1, thuộc tính 2 và nhãn lớp.
Tính centroid của mỗi lớp. Áp dụng bộ phân lớp minimum-distance classifier để xác định lớp cho mẫu thử P = (3.8, 3.1).
Ans
Centroid của lớp 1 :
1 = ((1+1+1+2+2+2+2 + 2.5+ 3.5+3.5)/10, (1+2+3+1+2+3+3.5+2+1+2)/10)=(2.05, 2.05)
Centroid của lớp 1 :
2 =((3.5 + 3.5 +4.5 + 4.5 + 4.5+5+5+6+6+6)/10, (3+4+1+2+3+4+5+3+4+5)/10)= (4.85, 3.4)
P = (3.8, 3.1)
D(P, 1 ) =sqrt((3.8 – 2.05)2 +(3.1 - 2.05)2) = 2.04
D(P, 2 )= sqrt((3.8-4.85)2 + (3.1 – 3.4)2) = 1.09
D(P, 2 ) < D(P, 1 )
Suy ra : P thuộc lớp 2

9. (1 điểm)
Cho ma trận nhầm lẫn (confusion matrix) của một bộ phân lớp gồm 3 lớp như sau :

Predicted
C1 C2 C3
Actual C1 19 4 1
C2 3 20 4
C3 2 3 21

Tinh độ chính xác (accuracy) của bộ phân lớp này.

Ans:
a) Accuracy = (t_C1 + t_C2 + t_C3)/N
= (19+20+21)/(24 + 27 + 26) = 60/77 = 0.779


10. (1 điểm)
a. Cho hai mẫu (mỗi mẫu gồm 3 thuộc tính) X = (7, 4, 3), Y = (4, 1, 8), hãy tính khoảng cách Manhattan giữa hai mẫu X và Y. (0.5 điểm)
b. Cho hai mẫu (mỗi mẫu gồm 8 thuộc tính nhị phân) X = (1, 0, 1, 1, 1, 0, 1, 1), Y = (0, 1, 1, 0, 0, 1, 0, 0), hãy tính khoảng cách giữa hai mẫu X và Y. (0.5 điểm)

Ans:
a) Khoảng cách Manhattan: d(X, Y) = |7- 4|+ |4 – 1| + |3 – 8| = 11
b) X và Y có 7 thành phần khác biệt nhau
d(X, Y) = 7

11. (0.5 điểm)
Gom cụm gia tăng là gì? Nêu một nhược điểm của giải thuật gom cụm gia tăng Leader.

Nhận dạng mẫu và học máy 中間試験 & 8回目 & mini project

2018年11月3日
以前から予告されていた中間試験。
問題はこちら。
f:id:k4h8:20181107124017j:plainf:id:k4h8:20181107124022j:plain
以前から告知されていた練習問題および2017年度試験と同じ問題もあったが、残念ながら初見も多く、70分あった試験時間が一瞬に感じられた。
なお、この中間試験の成績は35%に相当する。

力を出し尽くし制限時間が終わり、答案用紙が回収された後教室に残ってできなかった問題をやり直していると、なんと授業を行うという。
通常中間試験の日はそれで終わりで、授業をやらないのが通例であるが。
他の学生も疲れが出たのか、Facebookを見たり何やら授業とは関係ない作業をしたり、まともに聞いている人はほとんどいなかった。
ただ、先生のメールアドレスが板書されたので、試験終了後帰らなくてよかった。
このメールアドレスは試験にたいするいちゃもんや得点照会と思ったが念のため確認するとそのどちらでもなく、25%の成績に相当するmini projectの希望を送るためだという。

2日ぐらいたってクラスリーダーの角刈り君から今後の教科書と練習問題、それに件のmini project一覧が送られてきた。
内容は以下の33種類。

1. Study the PCA tool of WEKA and apply it in feature extraction for the following dataset:
(1, 1, 1), (1, 2, 1), (1, 3, 1), (2, 1, 1), (2, 2, 1), (2, 3, 1), (2, 3.5, 1), (2.5, 2, 1), (3.5, 1, 1), (3.5, 2, 1), (3.5, 3, 2), (3.5, 4, 2), (4.5, 1, 2), (4.5, 2, 2), (4.5, 3, 2), (5, 4, 2), (5, 5, 2), (6, 3, 2), (6, 4, 2), (6, 5, 2)
where each pattern is represented by feature 1, feature 2 and the class label.
2. Implement LDA method for the following training data set and apply it in feature extraction:
(1, 1, 1), (1, 2, 1), (1, 3, 1), (2, 1, 1), (2, 2, 1), (2, 3, 1), (2, 3.5, 1), (2.5, 2, 1), (3.5, 1, 1), (3.5, 2, 1), (3.5, 3, 2), (3.5, 4, 2), (4.5, 1, 2), (4.5, 2, 2), (4.5, 3, 2), (5, 4, 2), (5, 5, 2), (6, 3, 2), (6, 4, 2), (6, 5, 2)
where each pattern is represented by feature 1, feature 2 and the class label. (*)
3. Study how to use the X-means algorithm of WEKA and apply it in a clustering problem.
4. Study how to use the EM algorithm of WEKA and apply it in a clustering problem.
5. Study how to use the Bagging and ADABOOST algorithm of WEKA and apply it in a classification problem.
6. Implement ADABOOST algorithm and apply it in a classification problem. (*)
7. Study how to use Decision Tree classifier (J 4.8) of WEKA and apply it in a classification problem.
8. Study how to use SVM of LibSVM and apply it in a classification problem.
9. Study how to use SVM of MATLAB and apply it in a classification problem.
10. Implement back-propagation algorithm to train ANN and apply it in a classification problem. (*)
11. Implement k-NN algorithm and apply it in a classification problem. (*)
12. Implement distance-weighted k-nearest neighbor algorithm and apply it in a classification problem. (*)
13. Implement Naïve Bayes classifier and apply it in a classification problem. (*)
14. Implement logistic regression method and apply it in a classification problem. (*)
15. Study how to use the tools for attribute selection in WEKA and apply it in a benchmark dataset for customer churn prediction problem.
16. Study how to use ANN tool of Spice-Neuro software and apply it in a classification problem.
17. Study how to use ANN tool of MATLAB and apply it in a classification problem.
18. Study how to use RBF network tool of WEKA and apply it in a classification problem.
19. Study how to use RBF network tool of MATLAB and apply it in a classification problem.
20. Implement Squeezer algorithm and apply it in a clustering problem with categorical data. (*)
21. Implement k-means algorithm (with some centroid initialization technique) and apply it in a clustering problem. (*)
22. Implement HAC clustering algorithm and apply it in a clustering problem. (*)
23. Implement Condensed Nearest Neighbors algorithm and apply it in a classification problem. (*)
24. Implement the incremental clustering algorithm Leaders and apply it in a clustering problem. (*)
25. Implement Naïve Rank algorithm for reducing the training set and apply it in a classification using k-Nearest-neighbors. (*)
26. Implement anytime classification algorithm and apply it in a classification problem. (*)
27. Implement the improved k-NN algorithm with branch-and-bound technique. (*)
28. Implement a propotype selection method which is based on clustering and apply it in a classification problem using k-Nearest-neighbors. (*)
29. Implement the improved k-NN algorithm with the support of k-d-tree. (*)
30. Study how to use HMM (hidden Markov model) of MATLAB.
31. Study how to use PCA tool of MATLAB and apply it in the feature extraction for the following dataset:
(1, 1, 1), (1, 2, 1), (1, 3, 1), (2, 1, 1), (2, 2, 1), (2, 3, 1), (2, 3.5, 1), (2.5, 2, 1), (3.5, 1, 1), (3.5, 2, 1), (3.5, 3, 2), (3.5, 4, 2), (4.5, 1, 2), (4.5, 2, 2), (4.5, 3, 2), (5, 4, 2), (5, 5, 2), (6, 3, 2), (6, 4, 2), (6, 5, 2)
where each pattern is represented by feature 1, feature 2 and the class label.
32. Study how to use Decision Tree classifier of RapidMiner and apply it in a classification problem.
33. Study how to use the tools for attribute selection in RapidMiner and apply it in a benchmark dataset for customer churn prediction problem.

この中からどれか1つを選び、先生にメールをする。
ただ、すでに希望者がいるものは選べないので、早い者勝ちとなる。
とりあえずMATLABと書かれているものならやるべきことが具体的なので、

9 SVM of MATLAB.
17 ANN tool of MATLAB.
19 RBF network tool of MATLAB.
30 HMM (hidden Markov model) of MATLAB.
31 PCA tool of MATLAB.

をそれぞれMATLAB上で動かしてみたところHMM (hidden Markov model) が一番簡単そうであったため希望を送ったところ競合がなかったため無事に決定された。
このmini projectの締め切りがいつまでなのかの告知はまだないが、今後の授業を通じて知らされるものと思われる。

Phương pháp nghiên cứu khoa học nâng cao 5回目

2018年11月3日
Part3-14(P165)から
この日は授業中のPC操作が多く、授業中の提出もなかったので実質ほとんどが休憩時間。
レポートの締め切り情報もなかったので来た意味はなかった。
この日はNhの中間試験もあったのでそれであればこっちは休んでも良かったな。

さて、本科目もいよいよ次回で最終回。
60%レポートの仕様説明がされるか。

Nhận dạng mẫu và học máy 7回目

2018年10月27日
中間試験の前の回なので一応来た方がいいかと思って出席したが、特に問題の解説などはなく、配布資料を淡々と進めるだけだった。
出席の意思表示をしに来ただけだ。