「データエンジニアリング」の歴史について調べてみた。

今年でブライセンは40期突入とAID部門(データエンジニアリング事業)は部門設立10年目ということで、何かと節目の年となります。
ブライセンの歴史を遡ってみると、1986年設立ですが、初期のプロジェクトは電力制御の案件でDBを活用したシステムを作っていたと聞きます。その後オラクルが日本に入って来た際にもかなり早い段階でオラクルを活用したプロジェクトに参画したり、オラクルのパートナーになったり本出したりもしていたそうです。
最近では小売店舗向けにPOSデータ分析による需要予測サービス(B-Luck)や、倉庫向けに伝票等のデータ管理のクラウドサービス(COOOLa)も展開しております。
ブライセンの歴史をみてもデータとは切ってもきれない関係がありますが、その中でもAID部では自動車のADAS向け、工場/プラント向けのデータエンジニアリングサービスを展開し、アノテーション事業者という括りでは5年連続日本TOPシェアを誇るところまで来ております。
そんな、「データエンジニアリング」がどこから来たのか?少し歴史を調べてみましたので、以下に記載いたします。
ChatGPT
データエンジニアリングの歴史は、コンピュータの発展やデータ管理技術の進化と深く関係しています。以下、主要な時代ごとにその進化を簡単に説明します。
1. 1950〜1970年代: データ管理の黎明期
初期のデータ処理- 1950年代、コンピュータの登場により、パンチカードや磁気テープを用いたデータ処理が始まりました。
- 1960年代には、初期のデータベース管理システム(DBMS)が登場し、階層型(IMS:1966年)やネットワーク型(CODASYL:1969年)のデータモデルが開発されました。
2. 1970〜1990年代: 関係データベース(RDBMS)の誕生
データベースの発展- 1970年、エドガー・F・コッド(Edgar F. Codd)が関係データベース(RDB)モデルを提唱。これが現在のデータエンジニアリングの基盤に。
- 1980年代には、IBMのDB2、Oracle、Microsoft SQL Serverなどの商用RDBMSが登場し、SQLが標準的なデータ操作言語となる。
- データウェアハウス(DWH)の概念が登場し、企業がデータを蓄積・分析する文化が形成される。
3. 1990〜2000年代: ビッグデータと分散システムの発展
ETLとデータウェアハウスの普及- 企業はデータの統合と分析を重視し、ETL(Extract、 Transform、 Load)ツール(Informatica、 Talendなど)が普及。
- 1990年代後半から2000年代にかけて、データウェアハウスがさらに発展し、OLAP(オンライン分析処理)などの技術が登場。
- Webの普及とともに、従来のRDBMSでは処理しきれないほどのデータが生成されるように。
- Googleが2004年に「MapReduce」を発表し、並列処理による大規模データの処理が可能に。
4. 2010年代: ビッグデータ時代とクラウドの普及
HadoopとNoSQLの登場- 2010年前後、Hadoop(2006年発表)やNoSQL(MongoDB、 Cassandra、 Redisなど)が普及し、非構造化データの処理が可能に。
- データレイクの概念が登場し、RDBMSに適さない大量のデータをそのまま保存・処理できるようになる。
- AWS、 Google Cloud、 Azureなどのクラウドプラットフォームが台頭し、Redshift、 BigQuery、 SnowflakeなどのクラウドDWHが登場。
- データパイプラインを構築するためのツール(Airflow、 dbt、 Kafkaなど)が広く採用される。
5. 2020年代〜現在: モダンデータスタックの進化
データエンジニアリングの自動化とリアルタイム処理- ストリーミング処理(Apache Kafka、 Apache Flink)が普及し、リアルタイムデータの活用が一般化。
- ELT(Extract、 Load、 Transform)モデルが台頭し、データの変換をDWH内で行う手法が増えている。
- データメッシュの概念が登場し、中央集権型から分散型のデータ管理へ移行する動きが出ている。
- 機械学習やAIの発展に伴い、データエンジニアはMLパイプライン(Feature Store、 MLOps)を構築する役割も担うように。
- データ品質管理(Data Observability)やデータガバナンスの重要性が増している。
まとめ
データエンジニアリングは、データ管理の進化(RDBMS) → ビッグデータ対応(Hadoop、 NoSQL) → クラウドと自動化(Snowflake、 dbt、 Airflow) → AIとの統合 という流れで発展してきました。今後もリアルタイム処理、データの分散管理、AIの活用などが重要なテーマとなるでしょう。
以上が、Chat GPTに聞いてみた内容となりますが、皆様いかがでしょうか?
「データエンジニアリング」という言葉は日本ではまだ一般的に活用されていないかもしれませんが、意外と身近なDBやWEBシステム開発界隈では慣れ親しんでいる方も多いのでは無いでしょうか?
今後この「データエンジニアリング」は発展していき形もどんどん変わっていくと思われますが弊社ブライセンもしっかり時代を読みながら追従していきたいと思います。
■ブライセンアノテーションサービス
https://annotation.brycen.co.jp/
■データセット販売
https://annotation.brycen.co.jp/service/dataset.html
■MLOpsサービス
https://annotation.brycen.co.jp/service/mlops.html