好,那我是麥克我們距離非常遠我們是串拜設計上的團隊然後這也有沒有然後就是我對說先介紹一下我們團隊成員那這是那個技術我們剛剛就是有負責麥克然後我是三五等然後是小魚然後最主要就是想要就是詢問老師就是說這對我們現在目前就是因為我們現在的做法是其實就是幫一些很多的社群組他們去會診他們所有社團裡面接吻你email也有講對,所以就是好像老師也有提說有用相似度做法,但我們就想說這部分我們有在依照這部分去想然後去研究就非監督事的做法對,但是好像留一些問題有些問題都太遠了不會那現在的話,我們的目標就是把類似箱子一邊貼文然後分類就例如說這一邊貼文的話在我們現在的做法就是說把它分成生活用一類這個是雨傘然後我們的執行就很簡單,我們就是先見就是有很多生活用一類的資料庫這樣子像這一邊抓以這一邊的話是金油我們先抓的食品就是這邊文章的資訊然後名詞那頻率最高的前三名是像這邊的話是投金油跟整面我們比對資料庫的時候就會發現說這個有被我們存過就是金油的部分所以這個金油被我們存過所以我們就把歸類在生活用一類但是這種目前的方式那目前的方式的話會有這個資訊確定就是說我們需要有像小儀他幫忙去建這個字面然後他一直持續地去找很多名詞,然後去放進去這個非常花時間然後再來就是說明明有一些常用詞常用詞就會困擾你們常用詞就會困擾就是有一些模糊的詞就讓我們沒辦法就是我們要等會去判他說很不可能形容我們意外日本沒有出現在剛剛那一詞在裡面我們說看看日本因為他日本有兩個如果他日本因為我們沒有日本日本是名詞你說下一個下一頁對那這一頁如果出現日本其實日本是一個類似Noise對不對因為日本跟你的分類一點關係沒有那如果他來的都是日本德國那你們就完了詞明他後來找變成前三這個就會譬如說我本來像我一個小子可以貼一千片一千片貼可是現在可能丟一個小子那你沒有黑名單嗎必須要說你就直接把國名全部拿掉這你沒有想因為國名對你沒幫助所以應該說我在分的時候我同時哪一個詞對的我沒幫助我就跟他說沒幫助以後我就不會再看到他當然有見識是因為其實產品一會一直自信願意所以我們永遠不關心整個玩意當然所以這次好像是要花了我們目前的狀況那目前的效率大概是這樣就是有8萬3千多片對有2千2萬6千多片對而且我比較比較Challenge的就是說這十個真的是正確的分類嗎有什麼意義嗎說分類的階段因為你這邊的意思是說我們有了這個分類而且這是不重疊對不對他分到一個就不會分別的但事實上有一些東西他同時是好朋友的生活跟親子是嗎對我們學校主要在做這件事情是因為我想要分析這個社團受眾對受眾會賣賣什麼產品然後他的營業變性能量對對對然後我們就假設我這邊是有請賣的這邊假設是會把那個關鍵字也幫他修熟了對所以我們還是會再所以你可以回到最早的關鍵字你不是只卡在就是這十個標籤這一層你如果要知道某個社團很會賣什麼的時候我們現在這個右邊這個要看你這個字不能寫沒關係這是又下一條推薦他之前是說我們剛剛自己的書對啊大概是有這麼多對然後再去聽對然後我們是不是要給他看說你每天貼完他貼到的是什麼對對對所以我的意思說像他有很多就是跨類別的狀態的時候你們還是可以找得到他是跨別的類別不是說他一定會被卡在這十個字還是其實他就是會被卡在這十個字這個又是另外一個問題就會可以多類別就因為多類別他就是類似主題標籤本來一個就可以有很多個主題標籤就是Hashtag對那但是你們現在這個是比較像建文康穆克書中那種樹狀分類啊不是網狀分類那樹狀分類就很容易面對新的東西的時候就很沒有效率然後我有去就是就是稍微了解一下但是因為我現在想到比如說我們做相思度的話是不是開始要先就是還是要有一個基礎比如說生活用品他的文章我們可以先取一百篇做一樣做類似這樣最原諒自己的概念就是我還是要去去分類他去剖析他的持品然後還有用的詞動詞名詞然後把它記起來然後再去更新的文章做那這樣子的話是不是我們一篇文章可能就要重複跑這個一百篇因為他其實是距離的概念嘛就是說我在一個高維度空間裡面這一篇文章旁邊最近的是哪些文章概念上是這樣子對啊那但是現在的運算對這個病苦困難你就算是一百篇都要跑一百次那也才一萬次如果是相思度我所理解的事情是一定會有一個相思度的分數指標的分數應該是說這有點像Google那個以圖找圖嘛你丟一個圖進去他告訴你跟這張圖最像的十張照片之上對然後他是有個分數嘛這篇文章可能他當然有分數他他未必會告訴你但是對他後面有一個相思度對那我們這樣的話其實我們也會按照那個分數去做那分數之前的話就等於說其實一篇貼文裡面他假設有我們分析出來有一百個詞會好了然後如果一篇貼文的一百個詞會比然後我們建立了一百篇那等於他有可能是一百成一百是一萬個詞會那如果今天比要去跟他這一百篇的貼文裡面去做相思度比較的話那等於他有一百個一百個詞會然後一比要對一百次所以就跟一萬再成一百就對一百萬那你也很快喔三年版喔這都都還在一般CPU甚至不用講的時候就可以處理的範圍但是如果我們的社團的貼文因為你是這個問題的解決方案是說你如果要及時計算其實你只要你的計算的速度足以應付你的新貼文頻率就好所以如果你處理社團來的新貼文一秒不會超過50個我亂講對那這樣子的話你一秒只要能算50個就夠了總共我已經會算了對總共你只要你的吞吐量大過你實際進來的資料量就好啦那而且像相思度這個是我們叫做embarrassingly parallel就是說他很容易並行計算的一個東西所以你製不去就分到不同的CPU core或者是你真的需要再做一台機器你就做多一台機器那就是當你的客戶量真的哪一天變50倍那你就用50倍的算力去算它現在算力很便宜啊對所以我們所理解相思度的執行的施作方式剛剛我們所說的其實是是這樣的方向去施作的當然就是說中間有一些加速的方法啦就是你可以hash它等等你可以先算把那個維度稍微壓縮做dimensional reduction之類可是你就算就是真的就是用你剛剛講到最哪一最天真的做法還是就是你會算得完因為我們常來點就是怕效能對本來事實上你直接寫出來就知道說其實像能上這個還不是應該並不是問題那我還想問一個問題是說那好就算以這樣的方式來來判斷就是我們要怎麼樣去驗證就是現在所貼的標籤或者是是符合的但我的意思說你會有一些emerging的標籤嘛好比方說你用簡單的can means cluster那這樣子他就可以告訴你說在你這麼多東西裡面目前看起來好像有五個區塊各自彼此相似那你再人工去形容這五個區塊就好那甚至你也不需要用人工你就把類似像文字雲就是特別大顆的字那你自然就會有一些描述這五朵cluster的方法對就是說你先把這個群集做出來之後這個群集他要怎麼描述那個是一個次要的問題因為你看這個群集的特徵跟別的群集最不一樣的地方你自然就很容易命名他而縱使你不命名他你完全是靠這個群集裡面常有而別的群集裡面都沒有的字其實這樣用文字雲也夠了就這樣你也可以直接用它所以我今天先可以先做第一層的就是相似度的然後再用文字對對就是你拿到相似度之後你就可以用K-Means或別的方式弄到它的cluster等到你拿到cluster的資訊你就去問這個cluster裡面他們最常用而別的cluster最不常用的東西是什麼那這個時候這個cluster的就是Semitic他的語意就就互之欲出啊概念是怎樣就一個衝擊嘛一個衝擊那我想問說那除了這種除了那種文字的判斷方式我想說因為他們其實不好意思對像他們其實都有那個圖片那麼圖片用圖片比圖片會不會更快可以啊你就是用CV嘛用電腦視覺那等於就是圖片轉文字啊圖片轉文字圖片轉文字不是說圖片裡面要用字不需要啊他也可以說這理由583這個已經已經算成之後的技術像臉書你這個應該是臉書嗎臉書給視障者看的時候他其實就會出現照片裡可能有583對不對照片裡可能有人有兩個人照片裡可能有一個卡片在背景是咧所以一方面你就可以直接用Facebook的那一個圖片轉文字的就是敘述或者是你可以用一些現成的computer vision的API這個圖片他還你文字他會直接告訴我我只能用583對裡面的feature那很棒這個好像更快那我圖機差不多對我想因為接下來就是要實做然後10小時後還要對就就寫寫看了寫寫看好那今天先這樣反正有什麼問題在Email哦好ok謝謝老師好謝謝謝謝我就跟石頭說一下