Đại học Thăng Long - Seminar

Look
28-12-07, 12:01
Mời bác hoctrohn vào đây, em với bác chiến nhau công khai trước toàn thể nhân dân Thăng Long, đúng kiểu PhD hoctrohn chiện với ... student Look. Mỗi thằng hỏi nhau một câu. Ai không biết thì nói luôn là không biết.

Topic này nếu Đào, Bi, Phuong Đông thấy không hợp thì cứ việc “stop whennever with any reason” . Và có thể xóa đi, “no problem”. Các bạn khác thông cảm cho student Look dở hơi, thần kinh, chập cheng một téo.

Tinh thần là em xin hỏi bác hoctrohn trước.

Bài toán phân cụm một tập dữ liệu thành các tập con (sao cho các đối tượng trong cùng một tập con thì giống nhau, các đối tượng thuộc các tập con khác nhau thì khác nhau) là một bài toán quan trọng trong khám phá tri thức từ dữ liệu. Vấn đề này cũng rất hay. Và tất nhiên thuộc phạm trù Artificial Intelligence của bác Hoctrohn.

Thuật toán k-mean ban đầu (1967) do MacQeen [1] đề xuất là một thuật toán phân cụm (không giám sát) một tập dữ liệu gồm n đối tượng có m thuộc tính số thành k cụm (k<n). Các cải thiện thuật toán k-mean sau này đã được xem xét trên vài khía cạnh. Tiêu biểu là các thuật toán PAM của Kaufman và Rousseeuw [2], CLARANS của Ng và Han [3], Ralambondrainy [4], và Huang [5] (Huang mở rộng k-mean thành k-prototype cho dữ liệu hỗn tạm).

Gần đây (2005) nhóm Huang [6] đã phát triển k-prototype thành thuật toán w-k-mean mới bằng cách đưa trọng số vào cho từng thuộc tính của dữ liệu cần phân cụm.

=> Cũng như các thuật toán trên, w-k-mean vẫn là một thuật toán không giám sát (UnSupervised learning), tham số beta của trọng số w đòi hỏi phải thử nghiệm rất công phu và phức tạp.

Em đã cải tiến w-k-mean thành công để nó trở thành có giám sát (Supervised learning) và có kết quả và tính khả thi của nó cao hơn w-k-mean, và gửi đăng một phát trên IEEE, đã có phản hồi ok. Giờ bác hoctrohn cho một phát cải tiến khác theo ý bác, xem có khả thi không?.

--------------------------------

REF.
[1] *. MacQueen, 1967. “Some Methods for Classification and Analysis of Multivariate Observation”, Proc. Fifth Berkeley Symp. Math. Statistica and Probability, pp. 281-297.
[2] Kaufman, L. and Rousseeuw, P.*. 1990. “Finding Groups in Data - An Introduction to Cluster Analysis”. Wiley.
[3] Ng, R.T. and Han, *. 1994. “Efficient and effective clustering methods for spatial data mining”. Proceedings of the 20th VLDB Conference, Santiago, Chile, pp. 144–155.
[4] Ralambondrainy, H. 1995. “A conceptual version of the k-means algorithm”. Pattern Recognition Letters, 16:1147– 1157.
[5] Huang, Z. 1998. "Extensions to the k-Means Algorithm for Clustering Large Data Sets with Categorical Values". Data Mining and Knowledge Discovery 2, pp: 283- 304.
[6] Huang, *.H., Michael K. Ng, Hongqiang, R., and Li, Z. 2005. "Automated Variable Weighting in k-Means Type Clustering", IEEE Transactions on pattern analysics and machine intelligence, Vol. 27.
hoctrohn
28-12-07, 12:46
Anh thật, Look quá trẻ con Look ạ ... Với anh việc nghiên cứu là chuyện nghiêm túc và học hỏi, chứ không phải chuyện chiến để khoe. Bao giờ chú hiểu ra điều đó thì chú reg nick bên diễn đàn nghiên cứu của nhóm NC của anh, sau đó anh mời chú đến mở seminar dạy anh, sau đó anh sẽ bàn tiếp xem nghiên cứu như thế nào, hợp tác ra sao ... Chứ chú đứng khoe ở đây có tác dụng gì, anh có cả một tiểu đội đang cùng làm nghiên cứu với anh, chú có thích thì tham dự ... Anh cứ nói thẳng thằng đệ nào của anh đồng thời cũng là thầy của anh vậy... Anh không dỗi hơi mà làm nghiên cứu viên nhân dân trên diễn đàn này (và không có thời gian) , anh nhắc lại muốn hợp tác nghiên cứu anh sẵn sàng, trong nghiên cứu không có chuyện làm để khoe ai hơn ai, và nhất là tối kỵ với kiểu phát biểu "Cái đó em làm xong từ đời tám hoánh nào rồi"!
mdccc
28-12-07, 13:52
Blah blah ...


Em thấy cái kiểu lôi 1 cái hướng nghiên cứu hẹp của mình ra để thách đố nhau chứng tỏ bác topic hơi bị trẻ con háu đá :-D, nặng hơn tí nữa thì có thể còn là ếch ngồi đáy giếng nữa cơ đấy .


@ bác hoctrohn: bác ơi, nghề của em thì ko phải là CS, nhưng mà phải làm 1 cái clustering trên mesured data set để modelling, em dùng hẳn fuzzy clustering cơ đấy bác ạ (có weighting đàng hoàng) :-P . Về mặt "mới" thì em cũng bịa ra được 1 cái validity index phù hợp với cái data của em.

Nói thực với bác là em bây giờ đang khát tiền để đổ vào trứng rán VN cho bằng bạn bằng bè, bác xem có thể thuê em làm phần nào cho nhóm của bác được không ? :-)



P.S. Các bạn mù tịt về chiên môn xem đoạn chém gió dưới đây:

K-means clustering algorithm
K-means is the most popular centroid-based algorithm [7]. It tries to assign points to clusters so that the mean square distance of points to the centroid of the assigned cluster is minimised:
(1)
where X is the data set and V the centroid set of c clusters.
K-means is a local optimal algorithm based on the criterion (1) and is iteratively executed. The data model of this algorithm includes non-overlapped spherical clusters of similar size. It is a hard clustering algorithm, it means that a data point either does or does not belong to a cluster and created clusters are mutually exclusive in the iteration process.

The fuzzy clustering algorithms
Fuzzy clustering algorithms [8], in contrast to K-means, allow points to belong to several clusters simultaneously, with different degrees of membership. It means that overlapped clusters can be identified.
• Fuzzy c-means algorithm can be considered as a generalisation of the K-means clustering, it is a global optimal algorithm based on minimizing the objective function:
(2)

Đoạn chém gió trên các bác cứ hiểu đại khái là em vĩ đại hơn bác chủ topic nhé ;-)
Look
28-12-07, 14:02
@hoctrohn: bác có lời tử tế thế thì thôi. Hẹn bác dịp khác, biết đâu có duyên.

@mdccc:
- Nghiên cứu hẹp cái đé0 gì. Không nắm được cái rộng thì làm sao mà phát triển một cái hẹp nào đó?
- Phân cụm mờ chả có gì mới. Ý tưởng FCM có từ hồi Ruspini (1969) và được Dunn áp dụng năm 1973 nhằm xây dựng một phương pháp phân cụm mờ dựa trên tối thiểu hoá hàm tiêu chuẩn. Bezdek (1982) đã tổng quát hoá phương pháp này và xây dựng thành thuật toán phân cụm mờ c-means có sử dụng trọng số mũ, vân vân ...
=> Nhưng không phải đã có là đã hết. Thằng nào đó phát triển nữa thì phải nắm được cả một quá trình phát triển của nó thì mới cải tiến này nọ được. Hẹp là hẹp thế đé0 nào? Hơn nữa có phải làm mỗi chiện này đâu?


Về mặt "mới" thì em cũng bịa ra được 1 cái validity index phù hợp với cái data của em.

=> Cái này cũng có người làm validity index phù hợp rồi. Mdccc trình bầy ý tưởng xem có trùng không nào?
bachplayer
28-12-07, 14:09
Ờ, chúc mừng bác Look lần đầu có bài trên IEEE, thế này là cũng là nể đây, chắc là cũng có giá trị khoa học chứ không phải là không có. Nhưng diễn đàn trên này có phải để bàn học thuật kiểu này đíu đâu, bác chắc sướng quá mất khôn.
Look
28-12-07, 14:14
Ờ, chúc mừng bác Look lần đầu có bài trên IEEE, thế này là cũng là nể đây, chắc là cũng có giá trị khoa học chứ không phải là không có. Nhưng diễn đàn trên này có phải để bàn học thuật kiểu này đíu đâu, bác chắc sướng quá mất khôn.
Ờ thanh kiu vina miu bạn Play. Anh chỉ là phản ứng phù hợp thôi đấy chứ. Diễn đàn dân chủ mà. Mà anh trả lời bác hoctrohn tử tế thế còn gì? Muốn dừng là anh dừng, thế thôi, nhưng đừng bới ra nữa, anh lại xả thêm một đống nữa bi giờ...
cfact
28-12-07, 14:25
Mở tô pích ra đã sai rồi http://tnxm.net/images/icons/icon10.gif
Chatmate
28-12-07, 19:31
Hé hé, Look khoe paper về clustering algorithm
linhktmt
21-11-08, 23:50
Alo! Em mới ra nhập cũng vì topic này đây. Các bác còn nghiên cứu về chủ đề này nữa k nhỉ? Em muốn tìm một cái source demo về k-means. Có bác nào rỗi rãi chỉ cho em phát đc k?
lm2
22-11-08, 00:30
Thầy giáo tặng anh em cân chè Thái NguyênB-)

Họ tên: Nguyễn Tuấn Linh

Ngày sinh: 26/06

Trình độ chuyên môn: Thạc sỹ Công nghệ thông tin

Đơn vị công tác: Bộ môn Kỹ thuật máy tính, Khoa Điện tử, Trường Đại học Kỹ thuật công nghiệp Thái Nguyên

Văn phòng: Tầng 3 nhà TN, ĐH KTCN

Điện thoại:

* Mobile: 0982.260680
* Office: 0280.647522

E-mail:

* ntlinh@tnut.edu.vn
* ntlinh_k1t@yahoo.com
* linhktmt@gmail.com

Nick thường dùng:

* linhktmt
* ntlinh_k1t

Web site:

* http://linhktmt.googlepages.com/