はい、というわけで時間になりましたので、本日最後のセッションとなります。日本IBM株式会社のIBMからエヴァンチリストとして活動されています。木村慶さんより、ワードプレスミートIBMワートソン、ワードプレスのコンテンツデートをIBMワートソンに機械学習させてみようというセッションでございます。では、よろしくお願いしまーす。はい、よろしくお願いします。ありがとうございました。IBM木村と申します。本日お越しいただきましたよ、皆様。それから、皆様、ありがとうございます。まず最初に、今日の内容を基本的に全部写真撮っていただいたり、グラフクリートしていただいて全く構いません。ただ、ちょっと時間があまり十分にないので、早めにスライドを流してしまいます。ですので、後ほど公開される資料の方も合わせて参照いただければと思っております。はい、今回のテーマであります、機械学習ですね。機械学習の波が、やっとと言えるから、ワードプレスにも来てきたので、それをぜひ皆さんにも応用していただければと思っております。で、まず最初に簡単に自己紹介させていただきます。木村恵と申します。この写真自身は、そもそもIBMとワードプレスと何の関係があるかということですね。実は、結構転職歴がありまして、IBMは実は二度目なんです。で、全職でワードプレスにさつさわっておりました。実際に最高とか作っておりました。今は、IBMのクラウドエヴァンジェリストという形で、IBMのクラウドを皆様にお伝えして、幸せになっていただく。よく言うと幸せになっていただく。悪く言うと、戦闘活動をするというのが、そんな活動をしております。私自身は、クラウドエヴァンジェリストでもあるし、仕事としては、アーキテクトと呼ばれたり、SEと呼ばれたり、そんな、そういう風に呼ばれたりするような仕事をしているんですけど、自分自身ではプログラマーと名持っております。プログラマーであることがどちらができると、自分自身の中のアイデンティティであって、誇りに持っております。そのプログラマーの私の趣味というか、趣味と実際にも兼ねているんですけど、マンフォールです。もしかしたらご存知の方がいらっしゃるかもしれないんですけど、マンフォールって、地方実際によってデザインが違うんですね。例えば、これあげたの、これ全て東京都のマンフォールです。一番左側が、渋谷の八郡です。渋谷の八郡って人がたくさんいるので、そもそもこれ見つけるの難しいんですけども、八郡のところに不札だけこの八郡マンフォールがあります。あと真ん中がこれ、前の方が見えるかもしれないけど、小笠原村のマンフォールですので、東京都なんですけど、メッターに見ることができないと思います。一番右側は、これおそらく東京都で今一番新しいもので、魂の残量ピューロランドの周りに今こんなマンフォールが成長されています。そんなものです。こういうですね、マンフォールの写真と一情報を合わせて、こうなんでしょうね、SNS総社的に皆さんから写真を集めるというそんなサービスを作って運営しているんですけれども、多少この講師コンドウも入っていまして、この後紹介するんですけど、ワトソンの画像認識機能の中で、今ワトソンってマンフォールを認識する機能を持っているんですけど、そこに僕が持っているサイトから、何でしょうね、レイドを提供しましたという、そんな話を取り上げていただいたことがあります。こちらはですね、この際のコードとかを見ていただいても構わないんですけど、今日見上げたらですね、技術の無駄遣いというキーワードが検索すると、なんかこれ出てくるみたいですので、ちょっとこちらも見ていただければと思います。で、ありがとうございました。今日のアジェンダーです。まず最初に、ちょっと、何でしょうね、むしろしたら皆さんご存じかもしれないんですけど、人工知能ってそもそもどういうことなのかというのをちょっと簡単に紹介させていただこうとなっています。その後、うちの会社もですね、ワトソンってどんなものなのかと。ワトソンとワードプレスを、連結させるとどんなことができるのかという、その実際のデモも含めて紹介させていただければと思っております。で、最後にちょっとまとめ的なものも含めていただこうと思っております。で、まず最初にですね、例題です。これなんでしょうか、これ、これなんですか。ひっかけとかじゃないです、これなんでしょう。本当はこうさしていきたいんですけど、ちょっと今日時間がないので、トラーですよね、皆さん、トラーって思いましたよね。トラー以外の方はですね、ちょっと特殊な方だと思っております。これは本当に簡単な問題なんですけど、じゃあですね、もう一個質問。なんで皆さん、今これトラーだと分かりました?なんで?なんででしょう。ちょっと技術的な言葉をすると、この画像をインプットして、どういうアルゴリズムを実行したら、トラーっていうアウトのことが出てきたんでしょうか。分かりますか?これ結構難しいんですよ。自分の頭の中なんですけど、これ説明するの意外と難しいんです。これ簡単に解説しちゃうと、学習したからなんですね。いろんな生まれの方、いろんな年代の方とかいらっしゃると思うので、トラーをどう学習したかというか、結構センサーが完璧だと思うんですけど、その生まれてきた中で、いろんなトラーっていうのを見てきたはずなんです。それは写真だったり、時間だったり、テレビだったり、もしかしたら本物を見ている方もいらっしゃるかもしれません。その中でいろんなトラーを見てきた上で、なんかですね、トラーっていうものの特徴を自分の中で勝手に学習していくんですね。これは実は人間の脳の凄い処ですけど、例えばヒーローであるとか、縦島であるとか、4つ足で歩く姿であるとか、耳に特徴があるとかですね。あと、猫を既に知っているんであるとか、猫に似ているなとか、そんな特徴を自分の頭の中で勝手に、自動的に分類できるような機能をどんどん持っていくんです。これによってトラーっていうものを識別できるようになっています。で、実は人工知能ってこれをシステム化したものなんですね。まず最初にデートを学習させる必要があります。で、学習させたことによって問い合わせができるようになる。こういう仕組みを持っていく。ですので、システムって言ってたから、トラの画像っていうのとかね、トラのヒントになるようなものをこれがトラですよっていうものを大量に学習させておいて、それで学習させると、学習に使ってないこんな画像を与えたときに、あ、これトラですね。こう判断できるようになるという仕組みなんですね。で、これが何かこういかにも人間のように見えるので、人工知能です。というふうに言われるようなアーティビシャルなインテリジェンスです。というふうに言われるようになりました。で、ちょっとこの辺からですね、うちのお会社も宣伝にもなるんですけど、実はこのデータも学習をするという機能と、それから問い合わせをするという機能ですね。この2つがセットになっているのが、一般的に人工知能とか機械学習とかそういう機能なんですけど、ワトソンではこの2つの機能が、実は画像認識の機能だけではないんですけど、いろんなワトソンがあるんですけど、その多くがレストのAPIという形で提供されています。ですので、基本的に学習することも問い合わせをすることも、レストのAPIを呼んで実現することができるという、そんなことが提供されております。はい、そんなワトソンです。ワトソンのAPIでできることって、都国たくさんあるんですけど、大きく分けるとこの3つあるんですね。一般的に人工知能とか見にくいですけどね。元々ワトソンというか、コンピューターって一番右側の数値解析が得意だったんですね。数値を与えたときに、それを広い側で解析するんですけど、例えば傾向を取り出すとか、平均値を出すとか、相関関係を見つけるとか、相関関係がないことを見つけるとか、そういうことが得意だったんです。一方ですね、最近の機械学習とかって、この左側の2つの部分が中心になってきていて、例えばバイナリデータ解析です。先ほどの画像認識ってこちらですよね。画像を認識したり、あとは写真から顔を認識する機能であるとか、似た画像を探すとかっていうのはこの部分になります。絶対今日この音を紹介するのはですね、この一番左側にはテキスト解析です。テキスト解析というのは、テキストを与えると、そのテキストの内容を理解するとか、内容から何かを分類するとか、感情が含まれてたら感情を読み取るとかですね。こんなことをするっていう機能を持っています。この3つの機能を持っているんですけど、今日はこの中からですね、テキスト解析の機能を紹介、ワードプレイスと比較的、相性の良さそうなテキスト解析を一つ紹介させていただきます。僕らはですね、NLCっていう機能をしています。もしかしたら、機械学習の方にして、NLCっていう言葉が常にある程度知られているので、もしかしたらボタンの上でいらっしゃるかもしれないです。ナチュラルランゲージクラシファイアーとか言われているものですね。これ、またそのAPIの1つにこのNLCがあって、自然言語テキストをカテゴリーに分類するっていう機能を持っています。で、具体的に言うとですね、カテゴリーに分類するってどういうことかというと、例えば、今日の最高機能は何度まで上がるだろう?何度まで上がるんだろう?もちろん最終的にはこれに回答するっていうテーマもあるんですけど、これってナツですよね。施設で言うとナツに相当するテキストですよね。この例文にはナツとかってないんですけど、でも、これって季節で言うとナツの文章ですよね。っていうように分類してくれるっていう機能です。ちょっとこれは、ちょっと生々しいデータでもあるんですけど、こんにちは、予金講座を作りたいんですか。で、こうなんかテキストが入ってくると、これも質問されているなとか。新規契約の話をしているな。なんか、こういう風に分類してくれるんですね。で、これによって、あっ、じゃあお客様、こちらにどうぞっていう、新規契約のところに、相対できるという、そんな仕組みを実現するためのAPIでございます。つまり、こういう分類をしてくれるんですね。分類先を学習させて分類するっていうそんな機能を持ったAPIです。で、改めて、今回何をしようとしているかというのをちょっと紹介しようと思っております。ワードプレスのコンテンツをワトサンNLCの学習データとして利用できるんじゃないか。ということにちょっと挑戦しようと思っております。で、具体的に言うとですね、システム、こちらがワードプレスの仕組みでアプリケーションサーバーとマイエースキレーサーバーがあるんですけど、ここにワトサンNLCを接続します。接続しますって、どうやって接続するかなんですけど、専用のプラグインを用意しました。これをワードプレスの中にインストールしていただきます。このプラグインがNLCとワードプレスを繋げてくれる、そんな役割を持ったプラグインを作りました。この部分が今回のチャレンジになります。で、そのプラグインです。これ、ちょっと僕がですね、あまりこう、なんというかプラグインを配布する仕組みをよく理解してなくて、本当はお金のことも良かったんですけど、よく分かりなかったので公開していました。こちらからもうダウンロードができるなっているんですけど、目的はデモストレーション用です。つまりデモバイスするような形にしております。何するかというと、これをインストールした管理家のワードプレスから全文章を一回取り出します。全ての文章を取り出します。それぞれ、本文とカテゴリーを取り出すという、そんなプラグインです。それを学習させるんです。本文とカテゴリーに分けて全文章をワードソンに学習させるという、そんなプラグインです。ちょっと後で実際の目的を見ていただこうと思っています。これで、学習で出すというのはワードプレスの文章数で、学習が完了すると、ワードプレスの文章をもとにしたなんか分類の効発ができあがるという、そんなものになります。で、学習が終わった後で学習に使っていないテキストを新規で新しい文章を作ろうとした時にその文章はどのカテゴリーかふさわしいかというのを自分で選ぶのではなくてどうぞに決めてもらおうじゃないかという、そんなデモンストレーションを行うプラグインを作りました。で、デモンストレーションですね。ちょっとこの後動いしますけど事前情報として今、これからお見せするワードプレスには800件の技術文章が入っております。それぞれ、カテゴリーが1個振られていて、カテゴリーは8つです。ですので、だいたい1カテゴリーあたり100件の技術が入っているという、その上にご理解いただけばと思っています。クラウドとかジャバとかですね。リナックスとかというそんなワードプレスの環境がこちらです。ドスピンって言うんですかね。2070年のテーマを使ったそのままのワードプレスのものです。ここにカテゴリーがやってあって、例えばクラウドカテゴリーの文章はこれです。こんな風に見れるように調子しております。そちらがあったらこんな風に。つまり例えば、これを学習させるってどういうことかというとこのクラウドっていうものが何なのかをワトソンに学習させるんですね。ここで言ってるクラウドっていうのは世の中、一般的に言われているクラウドではなくてこのこのワードプレスの中に入っているクラウドカテゴリーの文章を使ってクラウドを学習させるというそういう意味です。同じようにしてジャバとかリナックスとかも学習させます。実はもちろん学習させているんですね。ここでプラグインで先ほどURLだけ紹介したこのワトソンLLCっていうプラグインがしてにインストールされていて重厚化されています。これを使ってそうするとここにNLC設定っていうのが出てくるようになって前にも設定されているんですけどここでもう学習が済んでいるのでなんか新しい文章をここに入れるとそれはさっきのやっつの中で言うとどのカテゴリーがふさわしいかを出してくる。ちょっとやってみます。URLだけじゃなくレッドハットも勉強しないとちょっと意図的にこのやっつの中のあるカテゴリーの文章を入力したつもりです。それをじゃあ問い合わせしてみました。はい。そうすると出ました。見えますか?見えますか?リナックスの可能性が83.5%XMLの可能性が9.9%オープンソースが2.3%うんちゃうんちゃう。実は意図的にその通りになっていてもともとの文章にはリナックスが入ってないんですよ。でもこれリナックスのカテゴリーによく出てくるキーワードでリナックスカテゴリーの文章によく出てくるキーワードで、それがその通りに動いている。結論から言うとこれリナックスですという正しく言っています。もう一つだけでibmのibmのWATOSON NLCはなかなかいいね。これをもう一回やってみます。と言い合わせします。このキーワードになればいいなと思うんですか。ありました。クラウドです。88%クラウドです。こういうふうに識別的にしてもらいますね。クラウドって入ってなかったですよ。でもこのキーワードはクラウドです。識別的にいるようになっています。こんなプラグインでございます。学習させるとWATOSONが賢くなってと言い合わせができるようになるというこんなプラグインでした。ちょっとこの後ibmクラウドって実は無料枠があってお金かけて使うことはもちろんできるんですけど無料枠の範囲内で使うことができます。使い方はここでAIカテゴリーからナチュラルランゲージクラシファイヤーを選ぶとこんなのができていいですね。ここにユーザーネームとパスワードというのが出ているのでそれをさっきのここに設定してくださいね。変更保存して学習するとこれをインストールしたプレスのデータを使って学習させます。この800件の文章ですとだいたい30分から45分くらい学習に時間がかかります。それから立つとこの問い合わせができるようになるというそんなものですね。こういう学習問い合わせもできるときました。詳細ちょっと僕のプログ見ていただければと思っております。最後に理解事業に向けてこれをちょっと今日のまとめに取り出せていただこうと思っています。この機械学習とかAIとか手早さわれているんですけど実は学習データがすごく不足しているんです。何を学習させれるかというところが実は今の問題になっていてそれを学習データを集めるかというものに対する答えの一つか今回このプラグインかなと僕自身は思っております。世の中のウェブデータの多くは皆さんの方が知ってますよね。ワードプレスで作られております。ですのでこのワードプレス内のデータがAIの学習データとして活用できるんじゃないかと思います。特に社内でワードプレスが使われているようなケースであれば社内用語というかあまり一般的じゃないような用語であっても社内用語はカテゴリーとして学習できるようにありますので世の中一般的ではないキーワードまで含めて学習ができるんじゃないかとそういう応用ができるんじゃないかと考えています。今見ていただいたのは半自動的なカテゴライズであるとかあとは農夫って言っているんですかねこの内容に詳しいのは誰みたいなそういうのを識別できる機能ですね。この文章を作った人をカテゴリーと見出すみたいなそういう学習の話せ方をさせるとこの文章は誰が詳しいですみたいなそういうことができるんじゃないかと作成日、作成月をカテゴリーと見出すことでこの季節にこんな内容の質問が多くきますねなんてことも識別できるようなそんなことが作れると思っております。で、最後にあくまかですね既存のワードプレスデータが活用できることによってそれによってワードプレスでビジネスをすればいいですね。新規に導入する際にこんなこともできるんですよという理由としても使えるようになるんじゃないかと考えております。最後おまけです。無料学がさっき上がると言いました。学習4回。厳しいですね。学習4回、取り合わせ1000回までは無料です。ですのでちょっとアカウントをたくさん作ってください。無料学を超えた文に関したら今回は書かれます。学習1回300円これ学習が1回315円取り合わせが1回0.36円これ1000倍なんですよ。これくらい使ってるマシンが違うというふうに持っていただいても頑張んないです。こういう形で一応無料で使うこともできます。で、あと僕の先作ったプラグインこうダウンロードして使っていただくと今見ていただいたことが皆さんのワードプラグスでできるようになります。以上になります。ちょっと時間過ぎちゃいましたかね。ありがとうございました。質問1個だけ受け付けられるかなと思うんですか。何かございますでしょうか。手古薬をお聞きしたいと思います。お作りのプラグインではカテゴリと内容とを分析するということでしょうか。だからカテゴリ以外の内容について学習をさせたいというようなことができるでしょうか。まず今回提供しているプラグインでは本文とカテゴリです。もちろんちょっと何でしょうね。見る先を変えればいいだけのことなので作り替えることができるんじゃないかと思っているんですけど逆に作り替えないで対応するというのが今できないんですね。もし、そういうのに興味があるんですけど作り替えていただいて作り替えていただけると取り越えるかなと思います。ありがとうございます。はい、というわけでじゃあ木村さんにもうちょっと大きな拍手を