麻瓜也可以擁有的分類帽

2023 年 8 月 5 日

參與「假日快閃 Matters 選集」徵圖活動、「马特“杯中梦灵灵灵”诗歌汇总双周刊-3」徵文活動

恭喜你，被標題騙進來了！這篇文章與哈利波特一點關係也沒有！

前言

話在前頭，其實那個「假日快閃 Matters 選集」徵圖活動是不需要寫文章，只需把你的「選集」截圖（至少一本）發到 Matters Lab 的「創作者經濟」頻道即可。這篇文章的出現，是因為活動獎金會透過支持個人首頁最新一篇文章的形式發放。同時，也因為被 @Matty 邀稿，分享使用選集的二三事：

孤立子你好～Matty 看到你第一時間如火如荼的試用了新上線的選集功能～感謝你的支持！～～你創建的選集都很有趣！都包含了你自己的設計心思haha我們覺得很適合推薦給社區，想邀請你寫一篇文章分享使用選集的感受或建議，或把這個功能分享給更多還沒用的朋友～

煩惱

如我在《進駐五個月，投稿二十篇》中分享，馬特市「孤立子」這帳號於我而言，是個以市內徵文活動（包括私人邀稿）自我挑戰的場地。執筆時帳號中29篇作品全是投稿，內容主題自然大不相同，難作分類的準則。

曾想過最簡單的分類：「社區活動」、「DC 駕駛員徵文」、「自辦徵文」、「私人邀稿」。但實在不行！太沉悶了！而且這樣的區分完全無助於更立體、多元地呈現作品。單純為分類而分類，是無法吸引更多讀者。

按文體分類又如何？故事式的記敍文歸一類，論說文和說明文歸一類，詩歌歸一類，眼看似乎也是個不錯的選擇…… 然而，實際操作時就發現有點尷尬。以最近期的《撲朔迷離》為例，文首有小明與小芳的一則故事，中間有一小段對故事及徵文主題「恐懼與愛」的感想，文末加入為了向 @Sogni 騙款而把文首故事改寫的詩歌。同一篇文章內混合了多個文體，這種區分好像也作用平平。

不過我也沒有把創建的 3 個選集刪去，僅是把「詩歌一類」改為放「介紹文」，修改一下選集名稱、並選一些迷因圖當封面。選集內的文章按其拍手數，由多至少排序。

決定

最後，我選擇的是按熱度分類，使用每篇文章的拍手數進行 K-均值聚類算法（K-means Clustering），分成低熱度、中熱度和高熱度三個選集。與按文體分類的選集不同，這 3 個選集內的文章是按其拍手數，由少至多排序。

上圖中每一個圖點代表一篇投稿作品，橫軸顯示的是作品的篇號（由第 0 篇至第 29 篇），縱軸則是該作品所得的拍手數。經過 K-均值聚類算法，作品被分成了棕色、綠色和紅色三群。低熱度的作品拍手數只有 20-30，可謂默默無聞（所以我會哭小聲一點）；中熱度的作品顯然是小有名氣，拍手數界乎 45 和 78 之間（其實我也知道自己的文筆就是爛，能有十多人拍手已經很不錯）；高熱度的作品獲得的拍手皆在 85 以上，曾有幸在「熱門區」逗留，算是風靡一時，讓人瞬間充滿自信（Feel like a sir）。

文末，一起看看 GPT-4 的回應：

其實還有兩個顯然而見的負面後果。首先，這分類法「乞討拍手」的意圖太露骨！其次，就是往後不論是獲得新的拍手，還是有新作品發布，我都得重新分類一次……

所以，喜歡我的，趕快來看看這些「默默無聞」的文章，它們正等待你的拍手……
討厭我的，想加大我工作量，看我辛苦忙碌的樣子嗎？來拍手吧……

[詩] 選集（獻給 @Sogni ）

分類難堪煩惱增
主題文體均不行
聚類算法添靈感
依其熱度以三分

低熱文章無人問
中熱小有名氣得
高熱一時風頭強
唯盼讀者拍手增

作者附註

關於 K-均值聚類算法：

舉個簡單的例子，假設我們想將10個人根據他們的身高/體重分成2群。我們可以先隨機選2個人作為起始群中心，然後計算每個人與這2個群中心的距離，將每個人分配到距離最近的那一群。接著重新計算每群的平均值作為新的群中心，再次計算每個人與群中心的距離並重新分配群份。反覆執行幾次後，就會自然地將人分成較矮/輕的一群和較高/重的一群。
這個算法就像是將人群分成幾個小團體，每個團體圍繞著一個代表性的中心，不斷調整中心和重新分配人以形成合理的分群。它不需要預先知道每個人的資訊，通過迭代就可以自主找到群的結構。
所以 K-means clustering 可以自動將資料分成具有代表性的幾個群落或類別，是一種很有用的無監督學習算法。