programing

인덱싱 Pandas 데이터 프레임: 정수 행, 명명된 열

iphone6s 2023. 10. 19. 22:06
반응형

인덱싱 Pandas 데이터 프레임: 정수 행, 명명된 열

말합니다df팬더 데이터 프레임입니다.

  • df.loc[]이름만 사용할 수 있습니다.
  • df.iloc[]정수(actual 배치)만 사용할 수 있습니다.
  • df.ix[]이름과 정수를 모두 사용할 수 있습니다.

행을 참조할 때,df.ix[row_idx, ]예를 들어 이름만 알려주고 싶어합니다

df = pd.DataFrame({'a' : ['one', 'two', 'three','four', 'five', 'six'],
                   '1' : np.arange(6)})
df = df.ix[2:6]
print(df)

   1      a
2  2  three
3  3   four
4  4   five
5  5    six

df.ix[0, 'a']

오류를 발생시킵니다. '2'를 반환하지 않습니다.

열을 참조할 때 iloc는 이름이 아닌 정수를 선호합니다.

df.ix[2, 1]

2가 아닌 '3'을 반환합니다. (비록df.idx[2, '1']돌아오다.2).

이상하게도 저는 정반대의 기능을 원합니다.보통 제 칼럼 이름은 매우 의미가 있기 때문에 제 코드에서 직접 참조합니다.하지만 많은 관찰 청소 때문에 내 팬더 데이터 프레임의 행 이름은 보통 다음과 일치하지 않습니다.range(len(df)).

다음을 활용할 수 있습니다.

df.iloc[0].loc['a'] # returns three

하지만 보기 흉해 보이네요!코드가 이렇게 보이도록 더 나은 방법을 아는 사람이 있습니까?

df.foo[0, 'a'] # returns three

사실, 제 자신의 새로운 방법을 추가하는 것이 가능한가요?pandas.core.frame.DataFrame를 들어 s, df.idx(rows, cols)사실은df.iloc[rows].loc[cols]?

늦은 답변이지만 @unutbu의 코멘트는 여전히 유효하며 이 문제에 대한 훌륭한 해결책입니다.

정수 행과 이름이 지정된 열(라벨이 붙은 열)로 데이터 프레임을 인덱싱하려면:

df.loc[df.index[#], 'NAME']어디에#는 유효한 정수 인덱스이고NAME는 열의 이름입니다.

기존의 답변들은 제가 보기에는 근시안적으로 보입니다.

문제 해결책

  1. df.loc[df.index[0], 'a']
    여기서 전략은 0번째 행의 행 라벨을 얻은 후 사용하는 것입니다..loc여느 때와 마찬가지로두 가지 문제가 있습니다.

    1. 한다면df행 레이블이 반복적으로 표시됩니다.df.loc[df.index[0], 'a']여러 행을 반환할 수 있습니다.
    2. .loc보다 느립니다..iloc당신은 여기서 속도를 희생하고 있는 거군요.
  2. df.reset_index(drop=True).loc[0, 'a']
    행입니다. 따라서이 0, 1, 2, ...이 되도록 인덱스를 재설정하는 것입니다..loc[0]와 동일한 결과를 가져옵니다..iloc[0]. 여전히 여기서 문제는 런타임입니다..loc보다 느립니다..iloc그리고 지수를 재설정하는 비용이 발생합니다.

베터 솔루션

저는 @Landmaster의 의견을 따를 것을 제안합니다.

df.iloc[0, df.columns.get_loc("a")]

본질적으로, 이것은 다음과 같습니다.df.iloc[0, 0]우리가 동적으로 열 인덱스를 얻는 것을 제외하고는df.columns.get_loc("a").

다음과 같은 여러 열을 색인화하는 방법['a', 'b', 'c']:,:

df.iloc[0, [df.columns.get_loc(c) for c in ['a', 'b', 'c']]]

갱신하다

이것은 팬더에 대한강의의 일환으로 여기서 논의됩니다.

답변이 매우 늦었지만 판다는 오랜 세월이 흘렀지만 여전히 그런 기능을 가지고 있지 않다는 것이 놀랍습니다.귀찮으면 사용자 지정 인덱서를 DataFrame에 몽키 패치할 수 있습니다.

class XLocIndexer:
    def __init__(self, frame):
        self.frame = frame
    
    def __getitem__(self, key):
        row, col = key
        return self.frame.iloc[row][col]

pd.core.indexing.IndexingMixin.xloc = property(lambda frame: XLocIndexer(frame))

# Usage
df.xloc[0, 'a'] # one

a에서 단일 값을 가져오거나 설정하는 경우DataFrame행/열 레이블에 의해, ... 대신 사용하는 것이 좋습니다.

  1. 빠른
  2. 단일 값에만 액세스하기를 원하는 것에 대해 보다 명확하게 설명할 수 있습니다.

다른 사람들이 이미 보여준 것처럼 행에 대한 정수 위치로 시작하는 경우에도 행 레이블을 먼저 찾아야 합니다.DataFrame.index~하듯이DataFrame.at레이블만 사용할 수 있습니다.

df.at[df.index[0], 'a']
# Out: 'three'

벤치마크:

%timeit df.at[df.index[0], 'a']
# 7.57 µs ± 30.8 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
%timeit df.loc[df.index[0], 'a']
# 10.9 µs ± 53.3 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
%timeit df.iloc[0, df.columns.get_loc("a")]
# 13.3 µs ± 24 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)

완성도를 위해:

DataFrame.iat 정수 위치별 행/열 쌍에 대한 단일 값에 액세스하는 경우.

우리는 인덱스를 재설정한 후에 이렇게 0 기반의 인덱스를 사용할 수 있습니다.

df.reset_index(drop=True).loc[0,'a']

편집: 제거됨[]from colname index'a'그래서 그냥 값을 출력합니다.

행이 하나만 필요한 경우 행을 열로 전환할 수 있습니다.

df.transpose()['a']

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.transpose.html

저는 df["a"][0] 같은 것이 잘 작동합니다.한 번 해보세요!

언급URL : https://stackoverflow.com/questions/28754603/indexing-pandas-data-frames-integer-rows-named-columns

반응형