본문 바로가기

주어진 집합에서 랜덤하게 원소를 고르기 어떤 유한한 집합이 주어지고, 여기에서 랜덤하게 중복없이 n개의 원소를 골라내는 작업을 구현해보자. 가장 간단하게 생각한다면 다음과 같은 알고리듬을 생각할 수 있다. 먼저 골라낼 원소를 가리키는 난수값을 발생시킨다. 1의 난수가 가리키는 집합의 원소를 고른다. 이 때 고르게 된 값이 이전에 뽑은 값과 중복되는지를 체크한다. 만약 한 번이라도 뽑았던 값이라면 버리고, 그렇지 않은 경우 결과에 추가한다. 1~3의 과정을 결과 집합의 크기가 n이 될때까지 반복한다. 로또 번호는 1~45 사이의 범위가 될 수 있기 때문에 random.randint(1, 45)를 통해서 랜덤하게 고를 수 있다. from random import randint result = [] while len(result) < 6: a = ..
그리드 형식의 값을 다루는 방법 행과 열로 이루어진 데이터를 다뤄야 하는 가장 흔한 경우는 DB의 조회 결과를 다루거나 CSV 파일을 다룰 때이다. 이 경우에 각각의 행은 필드값들이 연속된 리스트이며, 전체 데이터 테이블은 개별 행(리스트)이 중첩된 2중 리스트 구조를 갖는다. 하지만 이런 케이스들은 모두 "테이블" 형태의 데이터를 다루고 있다. 즉 대부분의 처리는 각 행 혹은 라인에 대해 반복하면서 특정한 작업을 처리한다. 그러다보니 대부분 그리드 형식의 데이터를 다루는 경우에 아무런 거리낌없이 2중 리스트를 사용하고 있는데, 개인적으로 "테이블" 형식의 데이터가 아닌 단순 그리드에 대해서는 2중 리스트를 사용하는 것을 그리 좋아하지 않는다. 이 글에서는 그리드의 데이터를 단일 리스트를 사용하여 다루는 기법에 대해서 알아보겠다. 그리..
리스트에서 중복된 원소를 제거하기 리스트에서 중복된 원소를 제거하려고 하는 상황을 가정해보자. 보통은 이런식의 코드를 생각하기 쉽다. def uniq(aList): result = [] for a in aList: if result.count(a) < 1: result.append(a) return result 임시 리스트를 만들고, 원본 리스트의 각 원소를 순회하면서 임시 리스트에 "들어있지 않다면" 추가하는 작업을 반복하여 임시리스트가 중복을 제거한 리스트를 담도록 하는 것이다. 여기서는 '.count()를 통해서 멤버십 테스트를 하는 부분을in` 연산자로 바꾸면 좀 더 좋은 성능을 (그리고 좀 더 깔끔한 코드를) 얻을 수 있다. 또 다른 방법으로는 리스트 축약을 사용하는 방법이 있다. 별도의 임시 리스트를 만들지 않고 i 번째 원소..
표준입력과 input 함수로 파일 읽어들이기 표준입력과 input 함수 지난 글에서 파이썬에서 텍스트 파일을 액세스할 때 파일 핸들러를 만들어서 사용한다고 했고, 파일 핸들러는 내부적으로 TextIOWrapper라는 버퍼 객체라고 했다. input() 내장함수 역시 TextIOWrapper를 사용한다. 대신 열리는 것이 디스크 상의 파일이 아니라 쉘이 제공하는 표준입력이다. TextIOWrapper(name="") 과 같은 식으로 만들어지는 버퍼가 있고, 이 버퍼는 표준입력을 파일로 간주하고 한 줄씩 읽은 결과를 리턴한다. 즉 이 말은 우리는 input() 함수 자체가 파일의 readline()과 비슷하게 동작한다는 것인데, 쉘의 입출력 특성을 사용하여, input() 함수만으로 파일을 읽어들이는 것이 가능하다는 점 시사한다.다만 차이가 있다면 파..
파일입출력 : 파일을 읽고 쓰는 방법 파일 입출력 다루기 어떤 양의 정수들을 입력받고 (예를 들어 0이 입력될 때까지 계속 숫자를 입력 받음) 그 합을 구하는 코드를 작성했다고 생각해보자. 물론 이 프로그램은 매우 간단하게 작성이 될 것이다. 그런데 이 프로그램을 사용할 때를 상상해보자. 합산해야 하는 숫자가 7자리(수백만)숫자 100개 정도된다면, 이를 일일이 키보드로 하나하나 타이핑 하는 것은 매우 번거로운 일일 것이다. 게다가 엔터를 눌러 입력한 후에 숫자가 잘못됐다는 사실을 깨닫는 상황이라면 처음부터 새로 입력해야 하는 아픔이 있을 것이다. 많은 양의 데이터를 일괄적으로 처리하기에 가장 좋은 방법은 입력값을 파일에 저장해 놓은 다음, 이것을 읽어서 처리하는 것이다. 일반적으로 한 개의 레코드를 한 줄에 기록하고 한 줄씩 읽어서 처리하..
CSV 파일 다루기 CSV 파일은 단순한 텍스트 파일을 데이터 테이블 형식으로 사용하는 포맷이다. 기본적으로 한 행을 1개의 레코드로 사용하며, 개별 필드를 컴마 (혹은 정하기에 따라서는 탭 문자나 임의의 구분자를 사용할 수 있다.)로 구분한다. csv는 기본적으로 플레인 텍스트 파일이기 때문에 텍스트 파일을 읽고 구분자 단위로 쪼개어 각 레코드/필드를 액세스하는 방식으로 처리하는 것도 가능하지만, 이는 제법 귀찮은 여러 작업들을 동반하기 때문에 파이썬 기본 라이브러리에는 csv 파일로부터 필드를 구분하여 읽고 쓸 수 있게 해주는 csv 모듈이 제공된다. 참고로 `csv` 모듈은 텍스트 파일의 내용을 구분자에 따라서 잘라서 제공해주는 것 이상의 역할을 하지 않는다. 각 필드의 값은 모두 문자열이며, 정수 및 실수 값으로 변..
raw 파일에 담긴 자료를 추출하여 가공하기 네이버 지식인에서 줏은 문제이다. 텍스트 파일에 상당히 많은 양의 데이터가 있다. (내용으로보건데 특정한 기기의 로그 파일인 것 같다.) 해당 데이터로부터 ID, distance, spd 값을 추출하여 distance가 특정 범위 이내 일 때 SPD의 평균값을 구하고 싶다는 것이 요지이다. 일단 로그 데이터는 아래와 같은 포맷의 텍스트파일이다. [2017-08-05 00:10:00.043] a.b.senser - lader> system: [2017-08-05 00:10:00.043] a.b.senser - lader> ID: 1, distance: 137, spd: -40 [2017-08-05 00:10:00.043] a.b.senser - lader> ID: 2, distance: 155, spd: ..
파이썬 값들의 변경가능/변경불가능 파이썬의 모든 변수는 특정한 객체에 대한 참조이며, 따라서 변수에는 "대입(assignment)"라는 표현을 쓰지 않고, "바인딩(binding)"이라는 표현을 쓴다고 했다. 보통 파이썬의 변수나 값 특성에 대해서 언급하는 내용은 여기까지인데, 파이썬의 구조에 대한 이해를 좀 더 깊이있게 가지기 위해서는 개별 값의 변경 가능성(mutability)에 대해서도 조금 생각해보자. 파이썬 내의 모든 것은 객체라고 했다. 기본적으로 집합의 성격을 가지는 리스트와 사전(그리고 set)을 제외한 모든 기본 객체는 변경 불가능(immutable)하다. 우리가 표면적으로 프로그래밍 언어를 접할 때에는 실제의 값이 변수 뒤에 가려진다고 느끼기 때문에 변수명이 곧 그 값이라는 생각을 하게 된다. 일차적으로 이러한 개념은 ..