Ch11. 동시성 컬렉션 - 필요한 이유

멀티스레드와 동시성

Ch11. 동시성 컬렉션 - 필요한 이유

webmaster 2024. 9. 15. 12:25

ArrayList의 Thread Safe 확인

여기서는 멀티스레드를 사용하지 않지만, 스레드 1과 스레드 2가 동시에 다음 코드를 실행한다고 가정해 보자.
- 스레드 1: list에 A를 추가한다.
- 스레드 2: list에 B를 추가한다.
컬렉션에 데이터를 추가하는 add() 메서드를 생각해 보면, 단순히 컬렉션에 데이터를 하나 추가하는 것뿐이다. 따라서 이것은 마치 연산이 하나만 있는 원자적인 연산처럼 느껴진다. 원자적인 연산은 쪼갤 수 없기 때문에 멀티스레드 상황에 문제가 되지 않는다.
물론 멀티스레드는 중간에 스레드의 실행 순서가 변경될 수 있으므로 [A, B] 또는, [B, A]로 데이터의 저장 순서는 변경될 수 있지만, 결과적으로 데이터는 모두 안전하게 저장될 것 같다. 하지만 컬렉션 프레임워크가 제공하는 대부분의 연산은 원자적인 연산이 아니다.

직접 컬렉션 만들기

직접 만들 컬렉션의 인터페이스이다.
크기 조회, 데이터 추가, 데이터 조회의 3가지 메서드만 가진다.

가장 간단한 컬렉션의 구현이다. 내부에서는 배열을 사용해서 데이터를 보관한다.
ArrayList의 최소 구현 버전이라 생각하면 된다.
DEFAULT_CAPACITY : 최대 5의 데이터를 저장할 수 있다.
size : 저장한 데이터의 크기를 나타낸다.
add() : 컬렉션에 데이터를 추가한다.
- sleep(100) : 잠시 기대한다. 이렇게 하면 멀티스레드 상황에 발생하는 문제를 확인하기 쉽다.

단일 스레드로 실행했기 때문에 아직까지는 아무런 문제 없이 잘 작동한다.

동시성 문제

add() - 원자적이지 않은 연산

public void add(Object e) {
    elementData[size] = e;
    sleep(100);//멀티 스레드 문제를 쉽게 확인하는 코드
    size++;
}

이 메서드는 단순히 데이터 하나를 추가하는 기능을 제공한다. 따라서 밖에서 보면 원자적인 것처럼 보인다.
이 메서드는 단순히 데이터를 추가하는 것으로 끝나지 않는다. 내부에 있는 배열에 데이터를 추가해야 하고, size 도 함께 하나 증가시켜야 한다.
심지어 size++ 연산 자체도 원자적이지 않다. size++ 연산은 size = size + 1 연산과 같다.

이렇게 원자적이지 않은 연산을 멀티스레드 상황에 안전하게 사용하려면 "synchronized" , "Lock" 등을 사용해서 동기화를 해야 한다.

Size는 2인데 데이터는 1개만 입력되어 있다.
스레드 1, 스레드 2가 elementData [size] = e 코드를 동시에 수행한다면? 여기서는 스레드 1이 약간 빠르게 수행했다.
- 스레드 1 수행: elementData [0] = A , elementData [0]의 값은 A가 된다.
- 스레드 2 수행: elementData [0] = B , elementData [0]의 값은 A -> B가 된다.
- 결과적으로 elementData [0]의 값은 B가 된다.
스레드 1, 스레드 2가 sleep()을 동시에 수행한다면?
- sleep()에서 잠시 대기한다. 여기서 sleep()을 사용한 이유는 동시성 문제를 쉽게 확인하기 위해서다.
- 이 코드를 제거하면 size++ 이 너무 빨리 호출되기 때문에, 스레드 1이 add() 메서드를 완전히 수행하고 나서 스레드 2가 add() 메서드를 수행할 가능성이 높다.
- sleep() 코드를 제거해도 멀티스레드 동시성 문제는 여전히 발생할 수 있다. (확률의 차이이다.)
스레드 1, 스레드 2가 size++ 동시에 수행한다면?
- 스레드 1, 스레드 2가 size++ 코드를 동시에 수행한다. 여기서는 스레드 1이 약간 빠르게 수행했다.
  - 스레드 1 수행: size++ , size의 값은 1이 된다.
  - 스레드 2 수행: size++ , size의 값은 1 -> 2가 된다. 결과적으로 size의 값은 2가 된다.
- 스레드 1, 스레드 2가 size++ 코드를 동시에 수행한다. 여기서는 스레드 1, 스레드 2가 거의 동시에 실행되었다.
  - 스레드 1 수행: size = size + 1 연산이다. size의 값을 읽는다. 0이다.
  - 스레드 2 수행: size = size + 1 연산이다. size의 값을 읽는다. 0이다.
  - 스레드 1 수행: size = 0 + 1 연산을 수행한다.
  - 스레드 2 수행: size = 0 + 1 연산을 수행한다.
  - 스레드 1 수행: size = 1 대입을 수행한다.
  - 스레드 2 수행: size = 1 대입을 수행한다.
- 결과적으로 size의 값은 1이 된다. 우리가 본 케이스는 첫 번째 상황이지만, size++ 연산도 원자적인 연산이 아니므로 때때로 두 번째 상황가 될 수도 있다. (따라서 로그에서 size 값이 1로 출력될 가능성도 있다.)

컬렉션 프레임워크 대부분은 스레드 세이프 하지 않다.

우리가 일반적으로 자주 사용하는 ArrayList , LinkedList , HashSet , HashMap 등 수많은 자료 구조들은 단순한 연산을 제공하는 것처럼 보인다. 예를 들어서 데이터를 추가하는 add()와 같은 연산은 마치 원자적인 연산처럼 느껴진다. 하지만 그 내부에서는 수많은 연산들이 함께 사용된다. 배열에 데이터를 추가하고, 사이즈를 변경하고, 배열을 새로 만들어서 배열의 크기도 늘리고, 노드를 만들어서 링크에 연결하는 등 수많은 복잡한 연산이 함께 사용된다.

따라서 일반적인 컬렉션들은 절대로! 스레드 세이프 하지 않다! 단일 스레드가 컬렉션에 접근하는 경우라면 아무런 문제가 없지만, 멀티스레드 상황에서 여러 스레드가 동시에 컬렉션에 접근하는 경우라면 java.util 패키지가 제공하는 일반적인 컬렉션들은 사용하면 안 된다! (물론 일부 예외도 있다..) 최악의 경우 실무에서 두 명의 사용자가 동시에 컬렉션에 데이터를 보관했는데, 코드에 아무런 문제가 없어 보이는데, 한 명의사용자 데이터가 사라질 수 있다.

동기화

따라서 여러 스레드가 접근해야 한다면 "synchronized", "Lock" 등을 통해 안전한 임계 영역을 적절히 만들면 문제를 해결할 수 있다.

앞서 만든 BasicList에 synchronized 키워드만 추가했다.
모든 메서드가 동기화되어 있으므로 멀티스레드 상황에 안전하게 사용할 수 있다.

실행 결과를 보면 데이터가 [A, B] , size=2로 정상 수행된 것을 확인할 수 있다.
add() 메서드에 synchronized를 통해 안전한 임계 영역을 만들었기 때문에, 한 번에 하나의 스레드만 add() 메서드를 수행한다.
실행 순서
- 스레드 1, 스레드 2가 add() 코드를 동시에 수행한다. 여기서는 스레드 1이 약간 빠르게 수행했다.
  - 스레드 1 수행: add("A")를 수행한다.
    - 락을 획득한다.
    - size 값은 0이다.
    - elementData [0] = A : elementData [0]의 값은 A가 된다.
    - size++ 을 호출해서 size는 1이 된다.
    - 락을 반납한다.
  - 스레드 2 수행: add("B")를 수행한다.
    - 스레드 1이 락이 가져간 락을 획득하기 위해 "BLOCKED" 상태로 대기한다.
    - 스레드 1이 락을 반납하면 락을 획득한다.
    - size 값은 1이다.
    - elementData [1] = B , elementData [1]의 값은 B가 된다. size++ 을 호출해서 size는 된다.
    - 락을 반납한다.

문제점 : BasicList 코드가 있는데, 이 코드를 거의 그대로 복사해서 synchronized 기능만 추가한 SyncList를 만들어

다. 하지만 이렇게 되면 모든 컬렉션을 다 복사해서 동기화 용으로 새로 구현해야 한다. 이것은 매우 비효율적이다.

프록시 도입

ArrayList , LinkedList , HashSet , HashMap 등의 코드도 모두 복사해서 synchronized 기능을 추가한 코드를 만들어야 할까? 예를 들어서 다음과 같이 말이다. ArrayList -> SyncArrayList, LinkedList -> SyncLinkedList

하지만 이렇게 코드를 복사해서 만들면 이후에 구현이 변경될 때 같은 모양의 코드를 2곳에서 변경해야 한다. 기존 코드를 그대로 사용하면서 synchronized 기능만 살짝 추가하고 싶다면 어떻게 하면 좋을까? 예를 들어서 BasicList는 그대로 사용하면서, 멀티스레드 상황에 동기화가 필요할 때만 synchronized 기능을 살짝 추가하고 싶다면 어떻게 하면 될까? 이럴 때 사용하는 것이 프록시이다.

프록시(Proxy)
우리말로 대리자, 대신 처리해 주는 자라는 뜻이다. 프록시를 쉽게 풀어서 설명하자면 친구에게 대신 음식을 주문해 달라고 부탁하는 상황을 생각해 볼 수 있다. 예를 들어, 당신이 피자를 먹고 싶은데, 직접 전화하는 게 부담스러워서 친구에게 대신 전화해서 피자를 주문해 달라고 부탁한다고 해보자. 친구가 피자 가게에 전화를 걸어 주문하고, 피자가 도착하면 당신에게 가져다주는 것이다. 여기서 친구가 프록시 역할을 하는 것이다.

나(클라이언트) -> 피자 가게(서버)
나(클라이언트) -> 친구(프록시) -> 피자 가게(서버)

객체 세상에도 이런 프록시를 만들 수 있다. 여기서는 프록시가 대신 동기화( synchronized ) 기능을처리해 주는것이다.

프록시 역할을 하는 클래스이다.
SyncProxyList는 BasicList와 같은 SimpleList 인터페이스를 구현한다.
이 클래스는 생성자를 통해 SimpleList target을 주입받는다. 여기에 실제 호출되는 대상이 들어간다.
이 클래스는 마치 빈 껍데기처럼 보인다. 이 클래스의 역할은 모든 메서드에 synchronized를 걸어주는 일뿐이다. 그러고 나서 target에 있는 같은 기능을 호출한다.
이 프록시 클래스는 synchronized 만 걸고, 그다음에 바로 실제 호출해야 하는 원본 대상( target )을 호출한다.

SyncProxyList는 프록시이다. 생성자에 실제 대상인 BasicList 가 필요하다.
구조 변경
- 기존 구조 : 클라이언트 -> BasicList(서버)
- 변경 구조: 클라이언트 -> SyncProxyList(프록시) -> BasicList(서버)
실행 결과를 보면 [A, B] , size=2로synchronized를 통한 동기화가 잘 이루어진 것을 확인할 수 있다

구조 분석

그림과 같이 정적인 클래스의 의존 관계를 정적 의존 관계라 한다.
test() 메서드를 클라이언트라고 가정하자. test() 메서드는 SimpleList라는 인터페이스에만 의존한다.
- 이것을 추상화에 의존한다고 표현한다.
덕분에 SimpleList 인터페이스의 구현체인 BasicList , SyncList , SyncProxyList 중에 어떤 것을 사용하든, 클라이언트인 test()의 코드는 전혀 변경하지 않아도 된다.
클라이언트인 test() 입장에서 생각해 보면 BasicList 가 넘어올지, SyncProxyList 가 넘어올지 알 수 없다. 단순히 SimpleList의 구현체 중의 하나가 넘어와서 실행된다는 정도만 알 수 있다. 그래서 클라이언트 인 test()는 매우 유연하다. BasicList의 어떤 구현체든지 다 받아들일 수 있다.
- test(SimpleList list){...}

그림과 같이 실제 런타임에 발생하는 인스턴스의 의존 관계를 런타임 의존 관계라 한다.
test(new BasicList()) 를 실행하면 BasicList(x001)의 인스턴스가 만들어지면서 test() 메서드에 전달된다.
test() 메서드는 BasicList(x001) 인스턴스의 참조를 알고 사용하게 된다.
- test(SimpleList list=x001)

실행 과정 분석

test() 메서드에서 스레드를 만들고, 스레드에 있는 run()에서 list.add()를 호출한다.
그림은 간단하게 test()에서 호출하는 것으로 표현하겠다.
BasicList(x001) 인스턴스에 있는 add()가 호출된다.

먼저 BasicList(x001)의 인스턴스가 만들어진다.
앞서 만든 BasicList(x001)의 참조를 SyncProxyList의 생성자에 전달하며 SyncProxyList(x002)가 만들어진다.
- 내부에는 원본 대상을 가리키는 target 변수를 포함하고 있다.
- 이 변수는 BasicList(x001)의 참조를 보관한다.
test() 메서드는 SyncProxyList(x002) 인스턴스를 사용하게 된다.
- test(SimpleList list=x002)

test() 메서드에서 스레드를 만들고, 스레드에 있는 run()에서 list.add()를 호출한다.
- SyncProxyList(x002)에 있는 add()가 호출된다.
- 그림은 간단하게 test()에서 호출하는 것으로 표현하겠다.
프록시인 SyncProxyList는 synchronized를 적용한다. 그러고 나서 target에 있는 add()를 호출한 다.
원본 대상인 BasicList(x001)의 add()가 호출된다.
원본 대상의 호출이 끝나면 결과를 반환한다.
SyncProxyList에 있는 add()로 흐름이 돌아온다. 메서드를 반환하면서 synchronized를 해제한다.
test()로 흐름이 돌아온다.

프록시 정리

프록시인 SyncProxyList는 원본인 BasicList와 똑같은 SimpleList를 구현한다. 따라서 클라이언트인 test() 입장에서는 원본 구현체가 전달되든, 아니면 프록시 구현체가 전달되든 아무런 상관이 없다. 단지 수많은 SimpleList의 구현체 중의 하나가 전달되었다고 생각할 뿐이다.
클라이언트 입장에서 보면 프록시는 원본과 똑같이 생겼고, 호출할 메서드도 똑같다. 단지 SimpleList의 구현체일 뿐이다.
프록시는 내부에 원본을 가지고 있다. 그래서 프록시가 필요한 일부의 일을 처리하고, 그다음에 원본을 호출하는 구조를 만들 수 있다. 여기서 프록시는 synchronized를 통한 동기화를 적용한다.
프록시가 동기화를 적용하고 원본을 호출하기 때문에 원본 코드도 이미 동기화가 적용된 상태로 호출된다.

여기서 중요한 핵심은 원본 코드인 BasicList를 전혀 손대지 않고, 프록시인 SyncProxyList를 통해 동기화 기 능을 적용했다는 점이다. 또한 이후에 SimpleList를 구현한 BasicLinkedList 같은 연결 리스트를 만들더라도 서로 같은 인터페이스를 사용하기 때문에 SyncProxyList를 그대로 활용할 수 있다. 쉽게 이야기해서 SyncProxyList 프록시 하나로 SimpleList 인터페이스의 모든 구현체를 동기화할 수 있다.

프록시 패턴

프록시 패턴(Proxy Pattern)은 객체지향 디자인 패턴 중 하나로, 어떤 객체에 대한 접근을 제어하기 위해 그 객체의 대리인 또는 인터페이스 역할을 하는 객체를 제공하는 패턴이다. 프록시 객체는 실제 객체에 대한 참조를 유지하면서, 그 객체에 접근하거나 행동을 수행하기 전에 추가적인 처리를 할 수 있도록 한다.

프록시 패턴의 주요 목적

접근 제어: 실제 객체에 대한 접근을 제한하거나 통제할 수 있다.
성능 향상: 실제 객체의 생성을 지연시키거나 캐싱하여 성능을 최적화할 수 있다.
부가 기능 제공: 실제 객체에 추가적인 기능(로깅, 인증, 동기화 등)을 투명하게 제공할 수 있다.

'멀티스레드와 동시성' 카테고리의 다른 글

Ch11. 동시성 컬렉션 - 동시성 컬렉션 (0)	2024.09.15
Ch11. 동시성 컬렉션 - Synchronized (0)	2024.09.15
Ch10. 동기화와 원자적 연산(CAS) - CAS 정리 (0)	2024.09.15
Ch10. 동기화와 원자적 연산(CAS) - CAS 락 구현 (0)	2024.09.15
Ch10. 동기화와 원자적 연산(CAS) - CAS 연산 (0)	2024.09.15

현재글Ch11. 동시성 컬렉션 - 필요한 이유

Today :
Yesterday :

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

WebMaster