オープンソースカンファレンス 2013 Kansai@Kyoto オープンソース「超」入門 2013/08/02 株式会社 日立ソリューションズ オープンソース技術開発センタ 吉田 行男 オープンソースビジネス推進協議会 Copyright©2013 OBCI All rights reserved. Mail : obci@nri.co.jp Web: http://www.obci.jp/ 自己紹介 【経歴】 入社当時は、金融端末のソフトウェア開発に従事。 2000年頃より、Linux/OSSのビジネス開発を担当。 2012年より、オープンソース技術開発センタ センタ長 【現在の業務】 OSSを活用するビジネスのための支援 • 新しい技術/OSSの発掘・評価検証 • ビジネス・ソリューションの立ち上げ支援 • 現在特にフォーカスしている領域 クラウド クラウドの運用自動化 (CloudStack, OpenStack, …) 仮想デスクトップ (VERDE, RHEV-D ,…) 業務バッチ処理基盤 既存COBOL資産の活用 (OpenCOBOL) 業務バッチ処理の高速化 (Asakusa Framework) 【社外活動】 OSSコンソーシアム 副会長 兼 クラウド部会リーダ オープンソースビジネス推進協議会(OBCI)理事(セミナー担当) Linux Foundation SI Forum リーダ 他 1 オープンソースビジネス推進協議会 Copyright©2013 OBCI All rights reserved. 目次 1. オープンソース(OSS)とは? 2. オープンソースの状況 2 オープンソースビジネス推進協議会 Copyright©2013 OBCI All rights reserved. オープンソース(OSS)とは? 1. 1. オープンソース(OSS)とは? 3 オープンソースビジネス推進協議会 Copyright©2013 OBCI All rights reserved. 1-2 オープンソースの定義 ■ OSI(※1)が定めるオープンソースの定義 ※1・・Open Source Intiative(オープンソース文化の啓蒙を目的に設立された国際NPO法人) 1. 自由な再頒布が出来ること 2. ソースコードを入手できること 3. 派生物が存在でき、派生物に同じライセンスを適用できること 4. 差分情報の配布を認める場合には、同一性の保持を要求してもかまわない 5. 個人やグループを差別しないこと 6. 適用領域に対する差別をしないこと 7. 再配布において追加ライセンスを必要としないこと 8. 特定製品に依存しないこと 9. 同じ媒体で配布される他のソフトウェアを制限しないこと 10.技術的な中立を保っていること ポイント 4 ・ オープンソース ≠ 著作権を放棄されたソフトウェア ・ ソースコードがインターネット等で公開されている ・ 再配布の自由と改変の自由がある オープンソースビジネス推進協議会 Copyright©2013 OBCI All rights reserved. 1-3 オープンソースの目的 ■ なぜ、ソースコードを公開するのか? ソースコードを公開し、世界中の技術者が同じソフトウェアの開発に 取り組むことで、機能・品質を継続的に向上していくことができる 機能向上 品質向上 オープンソース 改良 世界中の開発者達 ポイント 5 公開 フィードバック 世界中の利用者達 オープンソースの目的はソフトウェアの機能・品質の向上 オープンソースビジネス推進協議会 Copyright©2013 OBCI All rights reserved. 1-4 オープンソース関連組織・団体の全体像(1) ■ 関連組織・団体の全体像 開発コミュニティ ディストリビュータ アプリケーション ソフトウェア (ApacheなどのOSS) PFベンダ GNUソフト ライブラリ コマンド Linuxカーネル ドライバ イ ン ス ト ー ラ ISV 日本語フォント/ オフィススイート等の 商用ソフトウェア 運用管理ソフト等の 商用ソフトウェア 6 デ ィ ス ト リ ビ ュ ー シ ョ ン ハ ー ド ウ ェ ア 動 作 確 認 済 み マ シ ン SIer 業 務 ア プ リ 他 構 築 シ ス テ ム 非Linuxマシン 動作確認済み 商用ソフトウェア 統合ベンダ (出典:日本OSS推進フォーラム「オープンソースソフトウェアが開発コミュニティからユーザに届くまでの仕組み」より オープンソースビジネス推進協議会 Copyright©2013 OBCI All rights reserved. ユ ー ザ 1-4 オープンソース関連組織・団体の全体像(2) ■ 開発コミュニティ以外によるサポート提供形態 作業役割(例) ユーザ ① ② ③ ④ SIer PFベンダ ⑤ 総 合 ベ ン ダ ディストリビュータ 開発コミュニティ/開発企業 ① ② ③ ④ ⑤ ディストリビュー ションの作成 ユーザ ディストリ ビュータ ディストリ ビュータ ディストリ ビュータ ディストリ ビュータ ターゲットマシン へのインストール ユーザ ユーザ PFベンダ (ディストリ ビュータ) PFベンダ (SIer) 総合ベンダ ターゲットマシン での動作確認 ユーザ ユーザ ユーザ PFベンダ (SIer) 総合ベンダ 様々な機器やソ フトウェアを利用 したシステムの提 案 ユーザ ユーザ ユーザ SIer 総合ベンダ システム構築・ 評価 ユーザ ユーザ ユーザ SIer 総合ベンダ 運用時の問題切 り分け等 ユーザ ユーザ ユーザ SIer (ユーザ) 総合ベンダ (ユーザ) (出典:日本OSS推進フォーラム「オープンソースソフトウェアが開発コミュニティからユーザに届くまでの仕組み」より ポイント 7 ユーザが自己責任の範囲を選択することが可能 オープンソースビジネス推進協議会 Copyright©2013 OBCI All rights reserved. 1-5 コミュニティとは? 「オープンソース・コミュニティ」 一般的な「コミュニティ」は、「共同体、集団、地域社会」 特定のオープンソース・ソフトウェアの開発や普及活動を行うことを目的と した、人々の集まり 開発コミュニティ – オープンソースを開発するコミュニティ (例)Seasarプロジェクト、Ruby開発コミュニティ – 企業がコミュニティを主導する場合もある (例)MySQL(Oracle)、JBoss(RedHat) ユーザーコミュニティ – オープンソースを利用するにあたり、情報交換を行ったり、日本 語ドキュメントの作成を行ったりするコミュニティ (例)日本JBossユーザ・グループ、日本MySQLユーザ会、 日本PostgreSQLユーザ会、日本JasperServerユーザ会 8 オープンソースビジネス推進協議会 Copyright©2013 OBCI All rights reserved. 1-6 オープンソースは大丈夫? ■ オープンソースの3つ(+1)の誤解 オープンソースは品質が悪い? 誤解です。 むしろ、商用製品よりも品質が高いケースもあります。 大規模システムへの導入実績も豊富です。 オープンソースは実は高い? 誤解です。 利用ノウハウがない場合は、有償サポートサービスを活用することで、リスクを低減 しつつ、確実にソフトウェアコストを削減できます。 オープンソースを扱えるエンジニアがいない? 誤解です。 商用製品を扱えるエンジニアであれば、オープンソースも簡単に扱えます。 ソースコードレベルのサポートは、有償サポートサービスのご利用をお勧めします。 オープンソースは自己責任? 様々な有償サポートサービスがあります。有効に活用しましょう! 9 オープンソースビジネス推進協議会 Copyright©2013 OBCI All rights reserved. オープンソースの状況 2. 2. オープンソースの状況 10 オープンソースビジネス推進協議会 Copyright©2013 OBCI All rights reserved. 2-1 国内市場動向 国内ソフトウェア市場動向 ・ 2010年の国内ソフトウェア市場は2兆1,337億2,300万円。売上額1位はマイクロソフト(シェア 18.3%)、2位は富士通(10.0%)、IBMと日立が同率3位(6.9%) ・ 2011年の国内ソフトウェア市場は2兆1,235億800万円、前年比成長率マイナス0.5%。 2011年5月時点の予測から7.6ポイント上方修正 ・ 公共/教育向けやメインフレーム向けで震災の影響を強く受けるも、事業継続面からのインフラ 補強や企業のグローバル対応の加速が成長材料 ・ 2010年~2015年の年平均成長率は2.5%、2015年市場規模は2兆4,168億9,700万円と予測。 2013年には2008年時ピークの2兆2,572億8,000万円を超える見込み 出典:IDC「国内ソフトウェア市場動向および予測」 国内オープンソースソフトウェア利用実態 ・ ・ ・ ・ ユーザー企業におけるオープンソースソフトウェア(OSS)の最大メリットはコスト削減 ソリューションプロバイダーの30%以上はOSSプロジェクトが増加傾向 OSSの使用実績の多さがITビジネス売上高の増加に繋がっている サポートに対する懸念やエンジニア不足の課題を業界挙げて解決していくことが必要 出典:IDC「国内オープンソースソフトウェア利用実態調査結果」 11 オープンソースビジネス推進協議会 Copyright©2013 OBCI All rights reserved. 2-2 OSS導入実績調査(1) Linux Foundation SI Forumが実施した 2012年度オープンソースソフトウェア導入実績調査から ① 調査概要 調査期間:2013/5 ~ 2013/6 調査対象期間:2012年度(2012/4~2013/3) 参加企業(8社) : • • • • • • • • 12 株式会社日立製作所(日立Grは、日立で纏めて回答) 株式会社アシスト 日本電気株式会社/NECソフト株式会社 日本電信電話株式会社/株式会社NTTデータ デル株式会社 東芝ソリューション株式会社 日本ヒューレット・パッカード株式会社 富士通株式会社/株式会社PFU オープンソースビジネス推進協議会 Copyright©2013 OBCI All rights reserved. 2-2 OSS導入実績調査(3) 分類 仮想化、クラウド ファイル 導入実績多数 (4社以上) 導入実績あり (2社~3社) Eucalyptus CloudStack KVM Glance(OpenStack) Nova(OpenStack) Open vSwitch Xen OpenNebula DRBD Clonezilla NFS GlusterFS Swift(OpenStack) HDFS 分類 DB,関連ツール 業務アプリ Apache Hadoop Apache Derby Berkley DB infiniDB Community Edition Firebird Dbunit memcached MongoDB MySQL MySQL Administrator PostgreSQL MySQL Query Browser SQLite pgAdmin analog Amanda AWStats Bacula CACTI Chef Hinemos Crowber phpMyAdmin MRTG Ganglia phpPgAdmin ntpd Groundwork OpenAM JBoss jBPM Apache Lucene Jubatus Nagios Apache Solr Ludia Asakusa Namazu Rabbit MQ MosP OpenPNE SugarCRM 13 導入実績あり (2社~3社) 仮想化・クラウド系の HBase EclipseJDO iBATIS MariaDB ツール活用の本格化 Samba 管理、運用 導入実績多数 (4社以上) オープンソースビジネス推進協議会 Copyright©2013 OBCI All rights reserved. その他 2-2 OSS導入実績調査(3) 分類 仮想化、クラウド ファイル 導入実績多数 (4社以上) 導入実績あり (2社~3社) Eucalyptus CloudStack KVM Glance(OpenStack) Nova(OpenStack) Open vSwitch Xen 分類 業務アプリ Apache Derby Berkley DB infiniDB Community Edition OpenNebula Firebird Dbunit DRBD Clonezilla HBase EclipseJDO NFS GlusterFS iBATIS MariaDB Swift(OpenStack) HDFS memcached MongoDB MySQL MySQL Administrator PostgreSQL MySQL Query Browser Apache Lucene Jubatus analog Amanda AWStats Bacula CACTI Chef Hinemos Crowber MRTG Ganglia ntpd Groundwork OpenAM Nagios Apache Solr Ludia JBoss jBPM Asakusa Namazu Rabbit MQ MosP OpenPNE SugarCRM 14 導入実績あり (2社~3社) Apache Hadoop DB,関連ツール Samba 管理、運用 導入実績多数 (4社以上) オープンソースビジネス推進協議会 Copyright©2013 OBCI All rights reserved. 分散ファイルシステム、 SQLite pgAdmin オブジェクトストレージ phpMyAdmin の分野で事例が。 phpPgAdmin その他 2-2 OSS導入実績調査(3) 分類 仮想化、クラウド ファイル 導入実績多数 (4社以上) 導入実績あり (2社~3社) Eucalyptus CloudStack KVM Glance(OpenStack) Nova(OpenStack) Open vSwitch Xen 分類 業務アプリ Apache Derby Berkley DB infiniDB Community Edition OpenNebula Firebird Dbunit DRBD Clonezilla HBase EclipseJDO NFS GlusterFS iBATIS MariaDB Swift(OpenStack) HDFS memcached MongoDB MySQL MySQL Administrator PostgreSQL MySQL Query Browser SQLite pgAdmin analog Amanda AWStats Bacula CACTI Chef Hinemos Crowber MRTG Ganglia ntpd Groundwork OpenAM Nagios Apache Solr Ludia JBoss jBPM Asakusa Namazu Rabbit MQ MosP OpenPNE SugarCRM 15 導入実績あり (2社~3社) Apache Hadoop DB,関連ツール Samba 管理、運用 導入実績多数 (4社以上) オープンソースビジネス推進協議会 Copyright©2013 OBCI All rights reserved. phpMyAdmin その他 クラウドとの親和性が phpPgAdmin Apache Lucene Jubatus 高いツールが活用 2-2 OSS導入実績調査(3) 分類 仮想化、クラウド ファイル 導入実績多数 (4社以上) 導入実績あり (2社~3社) Eucalyptus CloudStack KVM Glance(OpenStack) Nova(OpenStack) Open vSwitch Xen 業務アプリ 導入実績あり (2社~3社) Apache Derby Berkley DB infiniDB Community Edition OpenNebula Firebird Dbunit DRBD Clonezilla HBase EclipseJDO NFS GlusterFS iBATIS MariaDB Swift(OpenStack) HDFS memcached MongoDB MySQL MySQL Administrator DB,関連ツール 業務領域での活用も PostgreSQL 進む analog Amanda AWStats Bacula CACTI Chef Hinemos Crowber phpMyAdmin MRTG Ganglia phpPgAdmin ntpd Groundwork OpenAM JBoss jBPM SQLite pgAdmin Jubatus Nagios Apache Solr Ludia Asakusa Namazu Rabbit MQ MosP OpenPNE オープンソースビジネス推進協議会 Copyright©2013 OBCI All rights reserved. その他 MySQL Query Browser Apache Lucene SugarCRM 16 導入実績多数 (4社以上) Apache Hadoop Samba 管理、運用 分類 2-2 OSS導入実績調査(3) 分類 仮想化、クラウド ファイル 導入実績多数 (4社以上) 導入実績あり (2社~3社) Eucalyptus CloudStack KVM Glance(OpenStack) 分類 業務アプリ Apache Derby Berkley DB Open vSwitch Nova(OpenStack) DB領域の動きが激しい。 Xen OpenNebula MariaDB,MongoDBの躍進 DRBD Clonezilla infiniDB Community Edition Firebird Dbunit HBase EclipseJDO NFS GlusterFS iBATIS MariaDB Swift(OpenStack) HDFS memcached MongoDB MySQL MySQL Administrator PostgreSQL MySQL Query Browser SQLite pgAdmin analog Amanda AWStats Bacula CACTI Chef Hinemos Crowber phpMyAdmin MRTG Ganglia phpPgAdmin ntpd Groundwork OpenAM JBoss jBPM Apache Lucene Jubatus Nagios Apache Solr Ludia Asakusa Namazu Rabbit MQ MosP OpenPNE SugarCRM 17 導入実績あり (2社~3社) Apache Hadoop DB,関連ツール Samba 管理、運用 導入実績多数 (4社以上) オープンソースビジネス推進協議会 Copyright©2013 OBCI All rights reserved. その他 2-2 OSS導入実績調査(3) 分類 仮想化、クラウド ファイル 導入実績多数 (4社以上) 導入実績あり (2社~3社) Eucalyptus CloudStack KVM Glance(OpenStack) Nova(OpenStack) Open vSwitch Xen 業務アプリ 導入実績あり (2社~3社) Apache Derby Berkley DB infiniDB Community Edition OpenNebula Firebird Dbunit DRBD Clonezilla HBase EclipseJDO NFS GlusterFS iBATIS MariaDB Swift(OpenStack) HDFS memcached MongoDB DB,関連ツール ビッグデータ領域での MySQL 検索系も活発に PostgreSQL MySQL Administrator analog Amanda AWStats Bacula CACTI Chef Hinemos Crowber phpMyAdmin MRTG Ganglia phpPgAdmin ntpd Groundwork OpenAM JBoss jBPM SQLite pgAdmin Jubatus Nagios Apache Solr Ludia Asakusa Namazu Rabbit MQ MosP OpenPNE オープンソースビジネス推進協議会 Copyright©2013 OBCI All rights reserved. その他 MySQL Query Browser Apache Lucene SugarCRM 18 導入実績多数 (4社以上) Apache Hadoop Samba 管理、運用 分類 (*)代表的なOSSの一覧 代表的なOSSの一覧 カテゴリ OSS OS Linux、FedoraCore、CentOS、Android、openSUSE、Debian 仮想化 KVM、Xen ネットワーク DHCP、Asterisk、OpenSSH、OpenSSL、Squid、BIND セキュリティ FreeRADIUS、OpenSSH、OpenSSL ファイルサーバ Samba、NFS、WebDAV、Samba SWAT 運用、管理 Hinemos、MRTG、OpenLDAP、OpenSSO、Zabbix 開発、テスト Hibernate、Perl、PHP、RubyStruts、eXo Platform DB、関連ツール Apache DB、OpenOLAP、MySQLPostgreSQL Web、APサーバ Apache、Jboss、Tomcat、zimbra、eXo Platform Desktop Firefox、openoffice.org、Thunderbird OSSはたくさんの種類があり、上記は代表的なOSSの一部。 Linuxの普及促進団体であるThe Linux Foudationが、安心して活用できるオープンソースソフト ウェアとして、現時点で選別しているものだけでも約400種類存在。 19 オープンソースビジネス推進協議会 Copyright©2013 OBCI All rights reserved. (*)2008年~2010年まで継続的に使われているOSS Apache Ant Apatche BIND CentOS CVS Eclipse FedoraCore Firefox Apache JMeter MySQL Python Samba Squid Apache Struts Subversion Apache Tomcat Trac vsftpd Xen rsync OpenLDAP OpenSSH OpenSSL Perl PHP Postfix PostgreSQL ab (apacheBench) analog Apache XML bonnie Bugzilla CACTI Courier-IMAP 企業が中心となって支援しているOSS 20 Dbunit Eclipse WTP fml GanttProject gimp Hibernate Apache Jakarta Apache Log4J MRTG MySQL Administrator Nagios Namazu NET-SNMP Openoffice.org OpenOLAP OpenPNE pgAdmin III 団体が中心となっている支援しているOSS オープンソースビジネス推進協議会 Copyright©2013 OBCI All rights reserved. PukiWiki qmail qpopper RRDTool Seasar (S2DAO) Selenium sendmail SQLite swatch Thunderbird Tortoise SVN Ubuntu Ultra Monkey VNC webmin WIRESHARK Xoops 2-3 オープンソースの利用状況 ■ 各業界の「トップ企業グループ」での利用状況 業種 21 利用しているオープンソース 大手銀行、地銀、信用金庫 Tomcat / JBoss 他 大手証券会社 JBoss / MySQL 他 大手自動車メーカー PostgreSQL 他 大手自動車部品メーカー Apache / Tomcat / JBoss / OpenAM / Liferay 他 大手電子機器メーカー Tomcat / JBoss / MySQL / OpenAM / Liferay 他 大手家電メーカー Tomcat / Subversion / OpenAM 他 大手化学メーカー Tomcat / PostgreSQL 他 通信会社 Tomcat / JBoss / OpenLDAP 他 電力会社、電力会社グループ企業 JBoss / PostgreSQL / OpenAM / Liferay 他 大手流通業 Apace / JBoss / Liferay 他 大手商社 JBoss / MySQL 他 大手メディア企業 JBoss / MySQL 他 大手システムインテグレーター 各種OSS 事例多数 (OBCI オープンソースカンファレンス2013 Tokyo/Spring OSS「超」入門) オープンソースビジネス推進協議会 Copyright©2013 OBCI All rights reserved. 2-4 オープンソースの適用状況 ■ OSからミドルウェア、業務アプリケーションの領域へ アプリケーション 領域 CRM SugarCRM ERP Compiere / ERP5 シングルサインオン OpenSSO ミドルウェア領域 ポータル Liferay アプリケーションサーバー Tomcat / JBossAS Bi Jaspersoft オペレーティングシステム Linux スマートフォン用 プラットフォーム Android 情報家電向けLinux サーバ領域 22 OpenOffice データベース MySQL / PostgreSQL Webサーバー Apache オペレーティング システム オフィススイート 端末領域 (OBCI オープンソースカンファレンス2013 Tokyo/Spring OSS「超」入門) オープンソースビジネス推進協議会 Copyright©2013 OBCI All rights reserved. 1.ビッグデータ時代の到来 1.1. 大容量化・多様化するデータ 1.2. 未活用情報に眠る価値 1.3. ビッグデータを活用するためのテクノロジー 23 オープンソースビジネス推進協議会 Copyright©2013 OBCI All rights reserved. 2. 市場動向と近況 2.1 ビッグデータ市場動向 ビッグデータの市場動向 国内ビッグデータ技術/サービス市場は黎明期、今後の成長率も高い ビッグデータ市場規模 2011年度 1,900 億円 2020年度 1 兆円 (億円) CAGR 21.0% (2011年~2020年) 出典:矢野経済研究所 ビッグデータ市場に関する調査結果2012 ビッグデータの認知度、実活用メリットや手法の理解はまだまだ低い 動向調査 国内企業1,050社 認知度 情報システム部門 業務部門 ビッグデータ活用 の検討 56.8 % 31.1 % 出典:IDC Japan 2012年 国内ビッグデータテクノロジー/サービス市場 需要動向分析 24 オープンソースビジネス推進協議会 Copyright©2013 OBCI All rights reserved. 13.6 % ビッグデータ活用 ITシステム導入済 2.6 % 2. 市場動向と近況 2.2 ビッグデータの定義・特徴 ビッグデータの定義と特徴 Volume (容量): 従来の技術による処理量を超えた 大容量データ Variety (種類): 画像/音声/ログなど非構造化データ Velocity (頻度・スピード): データ生成/分析の高速化、リアルタイム化 Value (価値): 分析&利活用で経済的価値が発生 ビッグデータの課題的特徴 ビッグデータの特徴 【データ容量の増加】 固定長データ 画像/映像データ 非固定長データ 非構造化データ 【価値】 データ分析から 発見、創出 定型データ 構造化データ 【データ種類の多様化】 センサデータ 手入力データ 定期発生データ 【データ発生頻度・ スピードの高速化】 プライバシーなどのコンプライアンス: 各種情報の組合せによって、個人特定などが可能な情報が生成される 分析データの取り扱い: データ分析する際に、利用するデータは自社データのみでない事も多い また、分析されたデータをマネタイズするのは自社のみではない事もある 25 オープンソースビジネス推進協議会 Copyright©2013 OBCI All rights reserved. 1.ビッグデータ時代の到来 1.1. 大容量化・多様化するデータ 1.2. 未活用情報に眠る価値 1.3. ビッグデータを活用するためのテクノロジー 26 オープンソースビジネス推進協議会 Copyright©2013 OBCI All rights reserved. 1.3. ビッグデータを活用するテクノロジー 1.3.1 ビッグデータをささえる新技術と従来技術の関係 大量データの分析のための、分散コンピューティング技術やストリームデータ 処理技術が新領域として出現 分散コンピューティング 技術の適用領域 データ量 並列 DB (SQL) ◎大規模非構造データ対応の分散処理フレームワーク - Hadoop (HDFS/HBase/Pig/Hive 等) - 日立グリッドバッチ (uCosminexus Grid Processing Server) RDB クラスタ ◎NoSQLデータベース Key-value-Store、ドキュメント/カラム/グラフ型指向 RDB (SQL) 蓄積検索 組み込み (OLTP) SQLバッチ 処理 処理 27 ストリームデータ 処理技術の領域 COBO L バッチ バッチ 処理 オープンソースビジネス推進協議会 Copyright©2013 OBCI All rights reserved. RDB 画像, 地図, XML検索 画像 検索 処理 XML 検索 処理 データ蓄積 や 文字列分析 文書、メール、 非定形データ 蓄積・分析処理 DWH, BI, ETL データ 収集・分析 処理 ストリーム データ処理 (uCosminexus Stream Data Platform) リアルタイム 処理 1.3. ビッグデータを活用するテクノロジー 1.3.2 大量データ処理をささえる分析技術 多様化するニーズを網羅する日立の技術と適用分類 情報系 基幹系 Hadoop ストリーム データ 処理 グリッドバッチ リアルタイム処理 ニーズ 技術・製品 膨大なデータを分析したい Hadoop OSSを活用し、安価な分析シス テムを作りたい (オープンソース) バッチ処理 特徴 ログデータ等の非構造化データ の高速な分析 OSSで構成しライセンス料安い 既存のバッチを高速化したい バッチ処理の大幅な時間短縮 グリッドバッチ 28 基幹バッチを高速化・大容量化 をしたい (uCosminexus Grid Processing Server) 基幹でも対応できる高い可用性、 障害の局所化 大量の処理依頼に対するリアル タイムレスポンス ストリームデータ処理 継続的に流れるデータを瞬時に 分析・ 処理 オープンソースビジネス推進協議会 Copyright©2013 OBCI All rights reserved. OSS:Open Source Software (uCosminexus Stream Data Platform) 2.Hadoopとパラダイムシフト 2.1 Apache™ Hadoop™概要 2.2 Hadoopがもたらすパラダイムシフト 29 オープンソースビジネス推進協議会 Copyright©2013 OBCI All rights reserved. 2.1 Apache™ Hadoop™概要 2.1.1 Apache™ Hadoop™概要 とは 米Google社の大規模計算技術を基にオープンソース化(Apache) 大規模データ分析の 従来の課題: (1)時間内で計算する (2) 並列処理の枠組み (3)データの可用性向上 Google MapReduce Hadoop MapReduce GFS ( Google File System ) HDFS (Hadoop Distributed FileSystem) 大量データを効率的に分散処理するためのJavaソフトウェア基盤 サーバを大量に並べ、並列処理を行うことで高速計算や スケールアウトの容易性を実現 スケールアウトにより高速化 国内外の多くの企業が積極的に利用 米Yahoo! Facebook VISA JP Morgan 楽天 N.Y. Times 30 :世界最大規模でHadoopを利用 :巨大ストレージと分析基盤に利用 :不正カード利用分析実施 :拡張可能ストレージと分析基盤に利用 :会員向けレコメンデーションに利用 :書籍のOCRとPNG変換 オープンソースビジネス推進協議会 Copyright©2013 OBCI All rights reserved. (25,000台、82PBデータ、3年分のログ分析を20分で処理) (36PBのデータ保存、1日約90TBのデータ処理) (340TBの分析が1ヵ月から13分に短縮) (RDMSの費用削減) (4,000万会員、2億件の分析が5日間から5時間に短縮) (Amazon EC2で4TB80万枚を36時間で変換) 2.1 Apache™ Hadoop™概要 2.1.2 HDFS, MapReduceの構成 Hadoopの主なソフトウェアコンポーネント HDFS(Hadoop Distributed File System) ⇒ 複数のサーバのHDDを1つの巨大なボリュームに見せる分散ファイルシステム MapReduce ⇒ 複数のマシンでの並列処理を実現するフレームワーク 従来の処理方式 Hadoopの処理方式 ディスク I/Oが ボトル ネックと なる データ データを自動的 に分割し、 分散配置を行う データ マスター サーバ 処理プログラム 処理結果 31 オープンソースビジネス推進協議会 Copyright©2013 OBCI All rights reserved. ディスクI/O が分散される HDFS Map Reduce 処理結果 Map Reduce Map Reduce 複数のサーバで 1つの論理FSを 構成 並列分散処理を 行うプログラム 2.1 Apache™ Hadoop™概要 2.1.3 Hadoopの適性 データ規模だけでなく、システム要件/業務要件も考慮が必要 ◎ Hadoopに適しているもの 大量データを全件走査するバッチ処理 数値に加え、文字列の処理や、マルチメディア処理まで対応可能 テラバイト/ペタバイト クラスの大量データの分析処理 大量データの情報系システム(レポート業務が基幹業務の場合は除く) データ量が増大するシステム(サーバ追加でスケールアウト可能) 大量データから価値情報を見つけるBI的な使い方(Hive/Pigの利用) × Hadoopに適さないもの 小さいサイズ/件数のデータ処理(実行する前処理のオーバーヘッドがある) トランザクション処理(RDBのようなトランザクション処理機能はない) データを分割し個々処理した場合に結果が同じにならない分析処理 データへランダムアクセスする処理 リアルタイム処理やクイックレスポンスが求められるもの 基幹システムや情報系システムの信頼性を求められるバッチ 32 オープンソースビジネス推進協議会 Copyright©2013 OBCI All rights reserved. 2.Hadoopとパラダイムシフト 2.1 Apache™ Hadoop™概要 2.2 Hadoopがもたらすパラダイムシフト 33 オープンソースビジネス推進協議会 Copyright©2013 OBCI All rights reserved. 2.2 Hadoopがもたらすパラダイムシフト 2.2.1 Hadoopがもたらすパラダイムシフト Hadoopにより、これまで敷居の高かった大量データの分析が どこでも、誰でも、どんな規模からでも実現可能になります ハードウェア ●エンタープライズ向け サーバ、ストレージ ●ミッドレンジ向け サーバ、ストレージ ソフトウェア エンタープライズ向け 専用ソフトウェア 商用ソフトウェア 汎用ソフトウェア ●コモディティサーバ、 ストレージ オープンソース ソフトウェア CPUやHDDの性能が飛躍的に 向上し、高機能なPCが廉価で 容易に手に入れられる時代 34 OSS利用のノウハウの高まりに よって、敬遠傾向から、積極的 な活用傾向へ転換している オープンソースビジネス推進協議会 Copyright©2013 OBCI All rights reserved. 従来 ■高価なシステム 大量データの取り扱いには、高価な システム環境構築が必須 ■高度な技術 専用ソフトウェアと高度な分析手法 などスペシャリストが必須 Hadoopによる パラダイムシフト ■コモディティ化システム 高価な機器、大規模な設備が無くと も、PB級のデータが取り扱える ■オープンでグローバルな技術 世界中の誰でも入手、利用できる技 術やノウハウで、高度な分析も大量 データの取り扱いも可能 2.2 Hadoopがもたらすパラダイムシフト 2.2.2 Hadoop利用により得られる価値 Hadoopを利用することで、より大量なデータを短時間で 処理可能となり、新しい価値が生まれます より大量なデータを対象に… BtoC/ネット、センサ等の 社外情報への利用拡大 分析対象データ 範囲の拡大 センサ 情報 社内 社外 SNS情報 Web公開 情報 よりリアルタイムに… レポート作成 処理 10年分 より多様なデータを対象に… 12時間 30分 月次⇒日次作成へ 6時間間隔 情報配信 15分間隔 35 1年分 1日4回配信⇒ 15分おきの配信へ オープンソースビジネス推進協議会 Copyright©2013 OBCI All rights reserved. メール グラフ 動画 文書 RDB 4. Hadoop動向と活用事例 4.2 Hadoopの動向 Hadoopの利用機能と利用シーン(ニーズ)の変化 Hadoopコアコンポーネント HDFS MapReduce + HDFS Pig MapReduce + 変化 一部のHadoop関連プロジェクト Hive Hadoopコアコンポーネント 各種Hadoop関連プロジェクト Hive Pig Flume Sqoop HBase Zookeeper ・ ・ ・ スケールアウト可能な分散ファイルシ ステム(HDFS)と、 並列処理実行(MapReduce)による トライアル的な利用中心 並列処理を容易に操作する為、 一部の関連プロジェクトの利用 36 オープンソースビジネス推進協議会 Copyright©2013 OBCI All rights reserved. 実データ分析による、ビジネス活用の 開始 データ収集や視覚化などのシステム 設計を含めた各種プロジェクト利用 実運用レベルでの活用に向けた、信 頼性・可用性設計 4. Hadoop動向と活用事例 4.3 Cloudera社のCDH/Cloudera Enterprise Cloudera社について Apache Hadoopの商用ディストリビューションを開発・提供している企業 Hadoopの開発者 Doug CuttingがCloudera社のチーフアーキテクト Hadoopビジネスで最も有名な企業であり、 Cloudera社のCDHやCloudera Enterpriseは世界中で最も多く利用されている CLOUDERA ENTERPRISE THE PLATFORM FOR BIG DATA 管理ソフトウェア &サポート CDH Cloudera Manager Cloudera Support OSS 100% Open Source CDH (Cloudera's Distribution including Apache Hadoop) HDFS ZooKeeper HBase MapReduce MapReduce2 Hive Pig Impala Flume Sqoop Mahout Oozie Hue Whirr ClouderaEnterprise(Core) ClouderaEnterprise(RTD) ClouderaEnterprise(RTQ) 日立ソリューションズでは、 2012年10月にCloudera株式会社と販売代理店契約を締結。 37 オープンソースビジネス推進協議会 Copyright©2013 OBCI All rights reserved. 4. Hadoop動向と活用事例 4.4 Hadoopの進化 進化が続くHadoop(CDH/Cloudera Enterprise)の動向 2011年4月~ CDH3 2012年6月~ 進化 CDH4 単一障害点(SPOF)の解決 次世代フレームワーク MapReduce2(YARN)の搭載 フェデレーションサポートでよ り大規模化に対応 Cloudera Manager 3 2013年6月頃登場 (?!) 進化 リアルタイムクエリ「Impala」 の搭載 HA機能の強化・完全化 セキュリティ強化 等 オープンソースビジネス推進協議会 Copyright©2013 OBCI All rights reserved. 進化 更なる関連 プロジェクト追加 や品質向上 等 ※予定情報 Cloudera Manager 4 高度な運用管理、システム監視 機能のサポート システム一元管理機能の強化と 容易性向上 38 CDH5 ダウンロード数 [CDH] 8,000超/月 [Cloudera Manger] 4,000超/月 4. Hadoop動向と活用事例 4.5 Hadoopの活用事例 ~利用者共通の目的~ Hadoop基礎機能の利活用 大量データを利用可能なフレームワークへの期待 ペタバイト級データを実際に利活用しているメジャー企業の実績 数千ノードまで拡張可能なスケールアウト性 ハードウェア・ソフトウェアとの高い親和性 多種H/Wでの稼働実績、多様なS/Wとの接続性 スケールアウトで 大容量化&高速化 OSSとしてのHadoopの魅力 グローバルで利活用可能な共通基盤としての期待 世界の何処でも共通基盤化できる(グローバル展開・ディザスタリカバリ等) 世界の誰もが開発・保守できる (維持保守の低コスト化 等) オープンソースに対する意識の変革 品揃え・機能の充実、品質の高まりに対する認知度向上 事例・問題解決・各種ノウハウが多く、容易に入手可能 39 オープンソースビジネス推進協議会 Copyright©2013 OBCI All rights reserved. 4. Hadoop動向と活用事例 4.6 Hadoopの活用事例 ~個別事例①~ 金融機関での事例 背景 サイトのアクセス統計は取得し ているが、実操作の動線や離 脱状況・理由が把握できない 現システムに手を加えず( ログ強化やビーコン埋込み等)、 データ分析で、効果あるサー ビス施策やサイト改修をしたい 対応 ユーザ操作の実動線とパターン、 離脱箇所や滞在時間を可視化 9sec 15user X 9sec 11sec 15user 12user Y B C 80user 23sec 40user 10sec 45user 52sec オープンソースビジネス推進協議会 Copyright©2013 OBCI All rights reserved. 20user[25%] D ●パターン② 10user[12%] ●パターン④ 離脱系 非定型ログをHadoopで全走査でクレンジングし、 ユーザ毎の操作をレコード生成。 実動線レコードとは別に、動線のパターン化、 離脱箇所特定、画面毎の滞在時間を算出し、 WEBアプリからアクセス可能なHBaseに格納。 正常系 ●パターン① Z A ●パターン③ 40 今後 分析した事実情報を二次分 析し新たな知見発掘へ - 他データとの相関分析 - 機械学習などの数理分析 ログ収集などの安全、且つ 確実な自動化 - Flume(CDH)の利用 即時利用・結果取得可能な アドホック分析の実現 - Imapala(CDH)の利用 日立ソリューションズの技術 金融機関の「最高レベルの機密デー タ」を保持する高機密度システム構築 高可用・高信頼システムの構築 4. Hadoop動向と活用事例 4.7 Hadoopの活用事例 ~個別事例②~ 通信事業での事例 背景 通信機器からの大量ログを長期間確実に 保持したい - 毎時250GBを4ヵ月 保管した大量ログの検索・マッチングを高速 に実施したい - 最大1PBytes 【参考:処理時間】 15TBのログ全件検索と50GBのログマッチング:40分 日立ソリューションズの技術 41 Hadoopを多クラスタ構成で構築、運用 JP1を利用したジョブ制御、稼働監視 などの運用管理 国内トップクラスの大規模クラスタ構築 時のHadoop設計、実構築の技術 オープンソースビジネス推進協議会 Copyright©2013 OBCI All rights reserved. 対応 Hadoopを大規模ストレージとして利用し データの冗長性を担保 Hadoopの多クラスタ構成により、障害時も24 時間365日の確実なデータ保管を実現 240nodes/クラスタ(1,000nodes超/全クラスタ) の超大規模な並列分散処理環境により高速 処理を実現 技術的ポイント 100nodes以下でも、パラメタ設計な どは独特の技術やノウハウが必要 100nodesを超えると、システム設計 にまで及ぶ課題やノウハウが出現 4. Hadoop動向と活用事例 4.8 Hadoopの活用事例 ~個別事例③~ 日立社内活用例 背景 セキュリティ事故防止のため、インターネット 接続先サイトの規制を行っているが、各種の 見直しをしたい - ネット情報利用の重要性・利便性と セキュリティ規制のバランス確保 - 運用部門と実利用部門のコスト低減 膨大なデータに含まれる、様々なノイズを Hadoopで高速にクレンジングすることで、分析 精度を向上 膨大なデータ蓄積・集計基盤としてHadoopを 活用 【参考:処理時間】 数十台のWebサーバのアクセスログ 1週間分を 60分以内にクレンジング/集計 42 オープンソースビジネス推進協議会 Copyright©2013 OBCI All rights reserved. 対応 利用状況を分析し、規制解除の自動化、適正な 判断をスピーディに実現 【利用者部門】 情報量増加による業務効率改善 規制解除などの事務作業低減 【運用部門】 自動化による人為的ミス解消 規制解除に関する各種事務作業の低減 分析データを利用した、情報漏洩事故やコンプラ イアンス違反の検知・予兆の実現 サイト 利用 利用側 状況 収集 分析 レポート 蓄積 集計 分析 見直し 運用側 4. Hadoop動向と活用事例 4.9 Hadoopの活用事例 ~その他~ Cloudera Manager関連 Hadoopクラスタの新規構築・スケールアウト、運用で非常に便利 長時間画面を眺めての作業、1台1台の操作からの解放 設定・変更時のヒューマンエラーを解決 GUIならではの可視性の高い性能/稼働監視、容易な操作性 使いこなすにはコツとノウハウが必須! 機能追加・改善ペースが速い 豊富な機能 ≒ 多くのパラメタと設計が必要 日立ソリューションズの技術 実運用レベルでの利活用実績と経験 Cloudera Manager V4.1.2の全パラメタ(約800項目)調査による裏付けある活用 Free版/Enterprise版のリソース設計、システム設計のノウハウ 43 オープンソースビジネス推進協議会 Copyright©2013 OBCI All rights reserved. 4. Hadoop動向と活用事例 4.10 Hadoopを利用したバッチ処理高速化 ノーチラス・テクノロジーズ社「Asakusa Framework」によるバッチ高速化 Asakusa Frameworkは、ノーチラス・テクノロジーズ社が開発するオープンソースで、 Hadoopを利用したバッチ開発向けの「開発フレームワーク」 バッチ処理に特化した機能・ツールが一体となり、バッチ開発の敷居を下げ、 開発効率を容易に向上可能 データモデル設計/データ・処理フロー設計/RDB連携ツール バッチ処理向けの各種テンプレート、テスト支援ツール 等 日立ソリューションズでは、 2013年3月にノーチラス・テクノロジーズ社と販売代理店契約を締結。 <Asakusa Frameworkの位置付け> 業務バッチ向け フレームワーク Hadoopコア (実行基盤) 44 AsakusaFW バッチ開発 統計・分析向け Hive SQL系 MapReduce(並列実行FW) HDFS(分散ファイルシステム) オープンソースビジネス推進協議会 Copyright©2013 OBCI All rights reserved. Pig スクリプト系 Hadoop基盤活用で、I/O分 散や並列処理を実現 複雑なMapReduceをJava でフル開発をせず業務 バッチ実装が可能 4. Hadoop動向と活用事例 4.11 Asakusa Framework概要 Asakusa Frameworkの機能と特長 現バッチサーバ上の特定の長時間ジョブを短時間化する事に最適 バッチシステム刷新に比べ低コスト、最小限の影響範囲で導入可 並列処理可能なバッチ、且つRDBMSでI/Oネックの場合に効果大 Hadoopの理解、複雑なMapReduce開発が不要 <Asakusa FW利用時の一般的システム構成例> ②AsakusaFWが DBの対象データ取得、 Hadoop上へ分散格納 RDBMS 処理対象 テーブル 処理結果 テーブル ⑤結果格納 DBサーバ 45 オープンソースビジネス推進協議会 Copyright©2013 OBCI All rights reserved. バッチ実行サーバ ①バッチ実行 AsakusaFW [実行エンジン] Masterノード ③ジョブ起動 【Hadoop】 ④並列ジョブ起動 【Hadoop】 【Hadoop】 【Hadoop】 Asakusa開発 バッチアプリ AsakusaFW [ライブラリ] Asakusa開発 バッチアプリ AsakusaFW [ライブラリ] Asakusa開発 バッチアプリ AsakusaFW [ライブラリ] 分割ファイル 分割ファイル 分割ファイル 4. Hadoop動向と活用事例 4.12 Asakusa Frameworkの活用事例(1) 小売業での活用事例 Keywords 売価還元法 個別原価法 法対応(IFRS) 規模 従来システムは売価還元法の為、日毎/商品毎の利益算出困難 ⇒ 個別原価法での日次処理は、計算量1,000倍超であり スケールアップ対処が困難 一方で、各種法対応の必須の課題 ⇒ 低コスト(HW, SW, 開発費)、早期導入の必要性 100~500GB 50+店舗, 10,000+商品 3,000+仕入先 Hadoop&AsakusaFW 商品グループ単位の月次原価管理、個別単品単位での 日次原価計算(個別原価法)を実現 利益状況をリアルタイムに可視化でき、経営判断スピードが向上 Asakusa Framework利用による開発効率とコストの確保 ポイント これまでのシステム面での制約の払拭、更には新たな業務バッチ追加も可能となる 部分適用である為、コストも時間も最小限、影響やリスクも最小限 46 オープンソースビジネス推進協議会 Copyright©2013 OBCI All rights reserved. 4. Hadoop動向と活用事例 4.13 Asakusa Frameworkの活用事例(2) 製造・卸販売での活用事例 Keywords 原価計算 クラウド基盤 経済状況・市況により変動が大きくなった仕入先/仕入額の影響 で、従来の一部商品での原価計算ではリスク大 ⇒ 全商品のアクチュアル原価算出は時間も、コスト面も困難 Hadoop&AsakusaFW 規模 5~10GB 110万アイテム 毎日4時間の原価計算が20分に短縮 Amazon Web Serviceを利用し、環境立上げ・データ転送・バッチ実行・結果 転送・環境クローズの総時間が20分(オンプレの1/10コスト) 長時間ジョブの切り離しで既存DBサーバの負荷軽減 短時間ジョブとクラウド基盤で障害時の不安払拭 ポイント バッチ高速化は、決して高価なシステムと開発、運用でしか解決できない事ではない 実データが大量でなくとも、処理データ件数が大量であれば、並列処理による効果は 十分にある 47 オープンソースビジネス推進協議会 Copyright©2013 OBCI All rights reserved. 4. Hadoop動向と活用事例 4.14 Asakusa Frameworkの活用事例(3) 電気事業での活用事例 Keywords 電力システム 改革 スマートメータ のデータ活用 規模 800万顧客 115億件 108TB/3年 スマートメータの導入により、検針データが大幅に増加する一方で 活用可能なデータ量が増大 ⇒ データは1,440倍(1回/月→1回/30分)となり、大量データ向けの 蓄積基盤、高速な分散処理基盤が必要 ⇒ 各種顧客サービスの向上を実現する、柔軟な拡張性が必要 新システムでは、新技術活用と共に効率的なシステム開発も課題 ⇒ 高効率(低コスト)な開発手法やフレームワーク技術が必要 Hadoop&AsakusaFW スケールアウト可能な分散蓄積と分散処理可能な処理基盤 高効率なバッチ開発フレームワーク ■(ご紹介)九州電力殿の取組み(2009~) 分散バッチ開発標準としてAsakusa Frameworkを採用 Asakusa Frameworkの学習・教育含めても開発工数が1/2以下で高効率と評価 文書管理システムにおけるHadoop/Asakusa Frameworkの適用検証を実施 4億レコード(37GB)を対象とした処理検証で高速化可能なことを確認 48 商用RDMBS Hadoop 1台 5台 123時間 21時間 オープンソースビジネス推進協議会 Copyright©2013 OBCI All rights reserved. END オープンソース「超」入門 株式会社 日立ソリューションズ 49 オープンソースビジネス推進協議会 Copyright©2013 OBCI All rights reserved.
© Copyright 2024 Paperzz