분류 전체보기 93

2026.05.20 AI 뉴스

1. Google I/O 2026 개막 — Gemini 3.5 Flash와 범용 에이전트 'Gemini Spark' 공개구글이 5월 19일(현지시간) 마운틴뷰 쇼어라인 앰피시어터에서 연례 개발자 컨퍼런스 Google I/O 2026을 개막하였습니다. OpenAI와 Anthropic이 IPO를 준비하며 AI 시장의 주목을 가져간 가운데, 구글은 검색·안드로이드 사용자 기반을 발판으로 모델 경쟁과 에이전트 경쟁 양쪽 모두에서 격차를 좁히려는 의도를 분명히 했습니다.핵심 발표는 두 가지입니다. 첫째, Gemini 3.5 Flash는 경량 모델 라인업의 신규 버전으로, 순다르 피차이 CEO는 동급 프런티어 모델 대비 가격을 절반에서 최대 1/3 수준까지 낮추면서도 최첨단 성능을 유지한다고 밝혔습니다. 추론 능력..

AI 뉴스 2026.05.20

데이터 처리 6 - EMR + Spark

1. 배경 — 왜 EMR + Spark인가데이터 규모가 수 GB를 넘어 수십 GB ~ TB 단위로 커지면 단일 노드 기반 도구(pandas, polars)로는 처리 한계가 옴. 분산처리 프레임워크인 Spark가 필요해지고, 이를 실행할 클러스터 인프라로 **AWS EMR(Elastic MapReduce)**을 사용함.1.1 EMR 특징사용한 만큼만 지불 — 필요할 때 생성, 작업 완료 후 해제하는 비용 효율 구조스팟 인스턴스 지원 — 온디맨드 대비 최대 90% 비용 절감 가능 (단, 회수 위험 존재)서버리스 옵션 — EMR Serverless로 클러스터 관리 부담 제거 가능상시 vs 일회성 — 조회 주기가 짧고 빈번하면 상시 유지 또는 서버리스, 일배치성이면 일회성 구성이 유리일배치 ETL은 "필요할 때..

데이터 처리 5 - Docker Spark

1. 배경 — 왜 Docker로 Spark를 띄우는가EMR을 띄우려면 비용·IAM·VPC 등 인프라 학습 부담이 큼. 학습 단계에서는 로컬에서 Spark 클러스터를 흉내 내는 환경이 필요함. Docker로 Spark Master + Worker 컨테이너를 띄우면 EMR과 동일한 분산처리 개념(파티션, executor, shuffle)을 무료로 체험 가능.1.1 EMR vs Docker Spark 비교 항목 EMR Docker Spark 환경AWS 관리형 클러스터로컬 컨테이너 클러스터비용인스턴스 사용 시간 과금무료(로컬 리소스만 사용)데이터 위치S3 중심로컬 볼륨(/opt/data)클러스터 매니저YARNSpark StandaloneMaster 접속EMR API/EC2spark://spark-mast..

데이터 처리 4 - Apache Spark

1. 개요대규모 데이터를 빠르고 안전하게 처리하기 위한 분산 컴퓨팅 엔진. ETL 작업의 표준 도구 중 하나임.정의 — 클러스터 환경에서 대용량 데이터를 인메모리 방식으로 병렬 처리하는 오픈소스 프레임워크등장 배경 — 빅데이터 처리를 위해 하둡(Hadoop), MapReduce 등이 출현했으나 디스크 I/O로 인한 속도 저하가 발생 → 이를 해결하기 위해 등장위치 — 데이터 엔지니어링에서 대용량 데이터를 다룰 때의 표준 스펙으로 자리잡음 (현재도 계속 변화 중)1.1 특징등장 시점 — 2010년언어 — 내부적으로 Scala로 작동, Scala를 래핑하여 Python/Java/R API 제공성능 — 하둡 대비 빅데이터 처리 속도가 100배 이상 빠름2. 아키텍처Spark는 4가지 핵심 컴포넌트로 구성된 분..

2026.05.18 AI 뉴스

1. Anthropic, "Claude는 광고 없는 사고 공간으로 남는다" 공식화Anthropic이 최근 블로그 포스트 *"Claude is a space to think"*를 통해 Claude를 영구적으로 광고 없는 제품으로 유지하겠다는 방침을 재확인했습니다.회사 측은 "Claude 대화 옆에 'sponsored' 링크가 노출되거나, 광고주에 의해 응답이 영향을 받거나, 사용자가 요청하지 않은 제3자 제품 배치(product placement)가 포함되는 일은 없을 것"이라고 밝혔습니다.핵심 논리는 검색 결과 목록과 달리 LLM 응답에 광고가 섞이면 "이 추천이 진짜 도움을 주려는 것인지, 상업적 동기가 있는 것인지" 사용자가 구별하기 어렵다는 점입니다. Anthropic은 광고 기반 비즈니스 모델의 ..

AI 뉴스 2026.05.18

2026.05.14 AI 뉴스

1. Apple, iOS 27에서 서드파티 AI 모델 선택 기능 'Extensions' 도입Apple이 iOS 27, iPadOS 27, macOS 27에서 'Extensions'라는 새로운 시스템 레벨 프레임워크를 통해 사용자가 직접 AI 모델을 선택할 수 있게 됩니다. Bloomberg의 보도에 따르면 Google Gemini, Anthropic의 Claude 등 서드파티 모델이 Siri, Writing Tools, Image Playground를 포함한 Apple Intelligence의 핵심 기능을 담당할 수 있게 됩니다 [1][2].기존에는 ChatGPT만이 Apple Intelligence와 독점적으로 통합된 외부 AI였으나, Extensions의 도입으로 이 독점 구도가 종료됩니다. 사용자는..

AI 뉴스 2026.05.14

데이터 처리 3 - polars

1. 개요1.1 데이터 처리 시 고려사항형태 — 정형/반정형/비정형규모 — 데이터 볼륨 (MB / GB / TB)환경 — 싱글 머신 vs 분산 환경가용 메모리 — 처리 가능한 한계 결정1.2 도구별 특징 비교 라이브러리 특징 베이스 언어 데이터 규모 현업 사용 numpyndarray 중심 수치 계산, 분석/처리의 근간C 기반 연산소~중규모—pandasSeries/DataFrame, 메모리 일괄 로드Python+Cython+C (Single Core)중규모 (~수 GB)많이사용polars최적화, 지연처리, 스트리밍, 병렬처리Rust / Apache Arrow대규모 (~수십 GB)증가추세sparkRDD/DataFrame/DataSet, 분산 처리Scala/Java/PySpark/RSpark초..

2025.05.13 AI 뉴스

2026-05-13 AI 뉴스 정리1. 구글, 스페이스X와 손잡고 'AI 데이터센터를 우주로' 보낸다구글이 일론 머스크의 스페이스X와 궤도 데이터센터 발사를 위한 협의를 진행 중이라는 사실이 공식 확인되었습니다. 알파벳 산하 구글은 5월 12일 자사의 'Project Suncatcher(프로젝트 선캐처)' 궤도 데이터센터 프로젝트와 관련해 스페이스X 및 기타 발사 업체들과 향후 발사에 대해 논의 중이라고 밝혔습니다.Project Suncatcher는 단순한 연구 단계 아이디어가 아니라 이미 구체적인 기술 검증 단계에 진입한 프로젝트입니다. 이 프로젝트는 태양광으로 구동되는 위성에 구글의 자체 TPU(Tensor Processing Unit) AI 가속 칩을 탑재해 궤도 상에서 머신러닝 클라우드를 구축하는..

AI 뉴스 2026.05.13

데이터 처리 2 - pandas

1. 개요1.1 중규모 데이터 처리 담당처리 규모 — 중규모 데이터에 적합, 최대 수 GB까지 처리 가능메모리 방식 — 단일 머신 메모리에 데이터를 한 번에 로드1.2 pandas란공식 정의 — fast, powerful, flexible and easy to use open source data analysis and manipulation tool포지션 — Python Data Analysis LibraryR과의 대응 — R ↔ pandas(분석) + sklearn(ML) + statsmodels(통계) + matplotlib(시각화)기반 — numpy를 근간으로 데이터 처리 수행데이터를 사용하는 주체에 따라 전처리 방향이 달라짐 — 데이터 분석용(정제)이냐, 모델 학습용(피처 엔지니어링 → Gold..

데이터 처리 1 - Numpy

1. 데이터 처리 / 준비 / Transform데이터 품질을 향상시키기 위해 도메인과 최종 산출물에 적합한 형태로 데이터를 가공하는 단계. 데이터의 형태, 규모, 싱글/분산, 메모리 환경 등에 따라 적절한 도구를 선택해야 함.1.1 도구 별 특징 라이브러리 특징 베이스 언어 데이터 규모 numpyndarray(다차원배열) 중심 수치 계산, 데이터 분석/처리의 근간C 기반 연산소~중규모pandasSeries(1D), DataFrame(2D) 자료구조. 파이썬 데이터 분석 표준. 데이터를 한 번에 메모리에 로드Python + Cython + C (Single Core)중규모 (~ 수 GB)polarsDataFrame, 지연처리 기반 최적화, 스트리밍/병렬처리 집중Rust / Apache Arrow대규..